CGへの扉 Vol.1：CG/VFXにおける人工知能の可能性と、その限界

2019.4.17アート

今日、これほどのコンピュータの進化がなければ、今のようなCG（コンピュータグラフィックス）や、VFX（特殊効果、視覚効果技術）の繁栄は考えられなかったでしょう。CGの本格的活用で話題になった映画、『ジュラシック・パーク』は1993年の作品です。シリーズの最新作『ジュラシック・ワールド／炎の王国』は2018年に公開されました。最初の作品から、シリーズ第五作目の作品まで25年の時を経ています。

CG/VFX技術、コンピュータの性能は格段に進歩していますが、今までに無かった映像を描き出す、現実には無いものを描き出すといったCG/VFXの目的には変わりありません。フルCG映画を数多く輩出するCGプロダクション、ピクサーの最初の長編映画作品は 1995年の『トイ・ストーリー』でした。ピクサーでは映画を発表するしばらく前、1980年代から長編作品の構想がありつつも、実際に長編を作れるほどのコンピューティングパワーが手に入るまで数年待つ必要があったそうです。

ピクサーのエド・キャトマル氏と『Toy Story 1』当時のレンダリングファーム（CG映像制作のための計算専用のマシンを集めた、
いわゆるコンピュータの農場）。エド・キャトマル氏は現在はピクサーのCEOを引退し、アドバイザーとして関わる。

当時最新鋭の100MHzのCPUを搭載した Sun SPARCstation がかき集められました。この写真に写っているマシン全部を集めても現代の最新版スマートフォンの半分くらいのコンピューティングパワーにも及びません。コンピューティングパワーの進化の指標としてよく取り上げられる「半導体の集積密度は18カ月ごとに倍増する」という「ムーアの法則」があります。それを皮肉った名言としてピクサーのエド・キャトマル氏が言ったといわれている「CGアーティストは（どんなにコンピュータが速くなったとしても）コンピュータの計算時間の限界まで作品を作り込んでしまう」という言葉があります。その言葉が物語っているように、1995年当時と比べて格段のコンピューティングパワーを手に入れた今日でも、より豊かでより複雑な表現を追い求め、映像制作のためにコンピューティングパワーが消費されています。

ピクサーのエド・キャトマル氏らが素晴らしかったのは、その当時1988年に初めて一般にリリースされたRenderManというCG映像制作のためのソフトウエアを遠い将来のことを考えて作ったことです。その当時の（今で考えるととても貧弱な）コンピュータの性能に依存することなく、将来得られるであろう、超高性能のコンピュータ、高解像度の表示装置を想定して仕様を考えていたことです。そのおかげで、RenderManはアルゴリズムや描ける画像の性質、品質こそ変わりましたが、リリースから30年以上経った今も、CG映像制作の第一線で使われ続けています。

さらに今日、いわゆるAI（人工知能）、ディープラーニングなどのテクニックが映像制作にまつわる所々の作業に新たな可能性を広げつつあるのが現代の CG/VFXの世界であり、さらに大規模なコンピューティングパワーによって、さまざまな可能性が広がってきています。

PAIR (People + AI Research)：AIと人間との協業という考え

「人工知能に仕事が奪われるの？」という話題がよく議論されますが、仕事は増える一方、それも人間にしかできない仕事がより重要になってくるとも考えられています。そこで人間の能力をより拡張し、人工知能の助けを借りつつ、人間と人工知能の関係性を研究、再構築し人工知能だけではなく人間の力とともに推し進めていこうという PAIR (People + AI Research) という考え方が、グーグルを中心に広がってきています。

このプロジェクトでは、エンジニアや研究者にとっての人工知能と人との関係性、専門職にとっての人工知能の支援、専門性をより高めるための検討、また一般ユーザーにとって人工知能にとってどんな恩恵が受けられるのか？といった話題が展開されています。映像制作の現場でも単に何かの作業をコンピュータに任せたり、コンピュータに依存した仕事をするのではなく、人が活躍する分野とコンピュータが活躍する分野の相乗効果でより素晴らしい映像を作っていこうという流れが主流です。

研究と実業の距離感の近さ

人工知能のブームは過去にも何度か来ていましたが、昨今の盛り上がりの大きな要因のひとつは、研究と実業の両面で盛り上がっていることです。他の業界、他の研究分野に比べ、人工知能の世界は研究と実業が良い関係性を持った近い位置にあり、研究成果の実用化のスピードが速く、また人材の交流も盛んです。

CG/VFXの世界も同様です。研究がすぐに実用化され、人材の交流の盛んな業界のひとつです。CGのトップカンファレンスと呼ばれる北米で開催される学会 SIGGRAPHでは、最新の論文発表の成果が翌年にリリースされたAdobeの最新ツールの新機能として組み込まれていたり、大学であるCG研究していた人が卒業後すぐにCGツールの開発やCGプロダクションで働くということもごくごく一般的です。

SSS（Semantic Soft Segmentation）は、SIGGRAPH 2018 で Adobeの研究者によって発表されたCNN（convolutional neural network：畳み込みニューラルネットワーク）を活用した背景分離の手法です。MIT CSAIL、チューリッヒ工科大学、Adobeリサーチ、マイクロソフトの複合チームによる研究で、1枚の静止画に写っている物体を認識し、前景と背景を自動的に分離し、背景を差し替えて利用できる手法です。静止画から訓練済みのCNNによって何が写っているのかを判別し、それを手がかりに前景を抜き出します。一般的には分離が困難な犬の毛並みや女性のカールした髪の毛なども正確に分離できます。現在はハイパワーなコンピュータでも数分かかる作業のため、実用に向けてはスピードの課題もあります。

CG/VFXの世界における人工知能の可能性と現在の限界

CG/VFXの世界でもコンピューティングパワーと人工知能活用で、人間の手作業で時間を食われていた雑務を安価で高速になったコンピュータに任せ、人間はよりクリエイティブな作業に時間を費やせるようになるとの考え方が浸透してきています。さまざまなアプローチが取り組み始められていますが、実際のところその便利さと、その限界の間でせめぎあっているのが現状のようです。

例えば、ものすごいコストと手間をかけて機械学習させ、CGで人物の動きや顔のアニメーションを制作するよりも、動きや表現力豊かな俳優の動きの取り込んでデータ化した方が手っ取り早く正確だったりします。多くの顔つきのサンプルを学習させて、新しいキャラクタの顔を自動生成できるようにしても、あまりにも一般的な顔になってしまい、ゲームや映画の中で活躍するクセのあるキャラクタの顔としては向かなかったり、演出や加工が必要な状況も出てきます。

つまり適材適所でツールはツールでしかないということです。現在進化しつつある人工知能をどう現場で活用するのかといった点でも模索中なのが現状です。いくつか事例を紹介しましょう。

人工知能活用のCM制作：レクサスの事例とバーガーキングの事例

高級車レクサスESのCMの脚本は、人工知能だけでなく映像制作の専門家が深く関わることで作られました。Visual Voice が開発した IBM Watson の画像認識技術をベースとしたシステムが使われ、広告を中心とするクリエイティブのアワード、カンヌライオンズで賞を獲得した車のCMや高級ブランドのCMを15年分学習させて作られています。

もちろん最初から完璧なCMの台本を人工知能が作れるわけではなく、人工知能が過去のCMから導き出した最適なストーリーを台本とし、撮影は編集は人間が行い最終的な映像を構築したもの（ただしこの映像は実際にTVCMとしては流されていないそうです）。

その一方、米国バーガーキングが挑戦したのは、すべて人工知能を使ってCM映像を作り上げるというもの。Agency of Record （広告主指名代理店）を皮肉った Agency of Robot（広告代理店ロボット）と呼ばれたプロジェクトが作り上げたCMは、ハンバーガーショップのCMっぽい映像ながらラップ調の変な言葉が続くものです。ネット上で話題にはなりましたが、誰の目から見ても奇妙なCMです。

顔の自動生成に機械学習を活用した事例と、CG/VFX業界でのデジタルダブル（俳優の複製）

ハリウッド映画の世界では、すでに亡くなった俳優をCG/VFX技術で復活させたり、デジタルダブルと呼ばれるデジタルの代役が多く使われるようになってきました。従来は危険なスタントの際、主演俳優に背格好がよく似たスタントマンに代役を務めてもらうようなことが行われていました。最近では俳優本人を全身スキャンしてCGで俳優そっくりのモデルを再構築して動かすことができます。

もちろん手間とコストはかかりますが、ほとんど本人と見分けがつかないほどのクオリティで再現でき、各所で使われるようになってきています。そこにはハリウッドを中心とする映画俳優組合との取り決めなどで、デジタルダブルの利用量が規定されていたり、死後のデジタルダブル制作を拒否している俳優などがいるのも現状です。グラフィックスハードウェア分野で成長の目覚ましいNVIDIA社はGAN（Generative Adversarial Network：敵対的生成ネットワーク) を活用して存在しない人物の顔を自動生成していく試みを発表しました。

【論文】A Style-Based Generator Architecture for Generative Adversarial Networks

8台のNVIDIA Tesla GPU搭載のハイエンドパソコンで1週間かけて1万人の顔を学習させ、顔を作る人工知能と、そのできた顔を評価する人工知能が延々と評価を繰り返して作られました。そのような工程を経て、生成される顔の精度を現実の顔写真のレベルまで高めっていったそう。同様の人工知能による顔の生成に関する研究は2014年ころからなされていますが、今回の人工知能が生み出した顔は格段に現実感を帯び、知人の顔写真だと言われても、まったく違和感のないほどの仕上がりです。この仕組みを拡張し、偽の顔をカスタマイズ、顔の特徴を加えていくことさえ可能となっており、倫理面での課題もあると話題になっています。

＊＊＊

本連載の今後の予定：CG/VFXの世界においても単に人工知能に仕事を奪われて仕事が無くなってしまうということではなく、クリエイティビティを加速させるテクノロジーとしてコンピュータや人工知能が活躍していくことは誰もが否定できない事柄だと思われます。今後も人間のクリエイティビティを加速させ、その幅を広げていくようなコンピュータ技術や、人工知能の活用などについて話題を紹介していきたいと考えています。次回以降も CG/VFX の世界における人工知能の具体例、研究例、ツールや制作事例紹介などにご期待ください。

Contributor：安藤幸央