CGへの扉 Vol.47：Gen-1登場。映像が映像を作る時代に

2023.2.14アート

ジェネレーティブAI（生成系AI）の台頭

AIが進化したら面倒な仕事はAIにやってもらって、絵を描いたり音楽を作ったりしてのんびりと過ごそうと考えていたら、現実はその逆で、AIが絵を描いたり音楽を作曲し始め、人間の仕事は面倒で複雑になる一方です。

人工知能が人間の知性を大幅に凌駕する「シンギュラリティ（技術的特異点）」という概念あります。この現象に到達するのが2045年と予想されていました。この「シンギュラリティ」という概念はアメリカの数学者でありSF作家でもあるヴァーナー・ヴィンジ氏が広めました。この予想がなされたのは1990年代のことです。近年ではレイ・カーツワイル（現在Googleのフェロー）の引用によって広く知られるようになりました。

ここ数年AIの進歩はめざましく、一部の用途では十分実用に耐えるレベルに近づいてきました。目に見える分かりやすい結果を導き出す事例としては、ジェネレーティブAI（生成系AI）が数多く台頭しています。こういった状況を踏まえ、一部では「シンギュラリティ」がもう少し早い段階で到達するのではないか、それはもしかしたら2025年頃ではないかとも言われています。

日々増え続けるジェネレーティブAIの情報を集めている There’s an AI for That では、2023年2月の時点で 451種類のタスクに対応する 1,694種のAIが登録されています。この数と種類は、皆さんがご存じのジェネレーティブAIの数よりも1桁も2桁も多いのではないでしょうか？数と規模はもちろん、AIの生成物や対応可能なタスクの多様性からも、もの凄いスピードでAI活用が広がっていることが分かります。

There’s an AI for Thatに検索キーワードを入れると、該当するタスクを実行するAIを見つけることができます。例えば “3D” というキーワードで検索すると、ソースコード共有サイトgithubのリンクから、サブスクリプションの課金モデルまでしっかり出来上がっているサービスまで、さまざまなソリューションがあっという間に見つかります。

2D画像から3Dデータを生成するMake3D、Kaedim
3D画像を扱うPoint-E、Masterpiece Studio
文章で指示するとテクスチャ素材を生成するPonzu.gg
ゲーム用の部品や素材を生成するG3D、WithPoly
インテリアデザインをサポートするGetfloorplan

映像クリエーターのコミュニティとともに作り上げたGen-1

研究が先か実用化が先か、必要性や需要性を示すニーズと研究開発の「種」であるシーズのどちらが先でどちらが重要かといった議論は、AIのような先進的テクノロジーであればあるほど難しい問題です。

2023年2月に登場した、参照画像や文章を元に動画を生成、加工するAI「Gen-1」が話題を集めています。昨今MidjourneyやStable Diffusionといった静止画を生成するAIが大きな話題を集め、当然次は動画を扱う段階になることは多くの人々が予想していました。けれどもそれが思った以上に早く、それも大層なクオリティで登場し、Midjourneyの存在には平然としていた動画クリエーターたちも戦々恐々とし始めた印象があります。

Gen-1は、アメリカニューヨークを拠点としたAIスタートアップRunway Researchによるものです。現在の社員数は40名、機械学習に強い技術者はもちろんのこと、バックエンドの開発者、iOSアプリの開発者など広く人材を募集中です。Runway Researchは、Stability.AI社とともに画像生成系のAI Stable Diffusionを作り上げたAIの研究開発を主軸とした企業です（ただし、現在はフォトストックGetty Images社からStability.AI社が訴えられていることから協力関係は解消されているもようです）。

Gen-1：https://research.runwayml.com/gen1

サンプルでは、次のような事例を提示しました。映像制作の手間や試行錯誤のスピードを圧倒的に向上させるアプローチに期待がふくらみます。

Stylization：一枚の画像のテイストを、動画素材に反映させ、VFX処理されたような画像を生成

Mask：従来、特殊なマーカーを描いてトラッキングしなければいけなかった動画変換処理を簡単に

Render：ごくごく簡単な3DCGアニメーションを作るだけで、最終レンダリング品質の動画を生成

Customization：数枚のキャラクタ画像をもとに、人の動きを反映させて3Dキャラクタを生成

現時点ではベータ版の段階で、一般の利用者はまだウェイティングリストに登録できるところまでです。生成される動画の品質や生成に必要なコンピューティングパワーや速度、費用が気になるところです。けれどもこういったツールの進化は止めようもなく、映像制作のワークフローを大きく変えていくであろうことも確かです。Customizationは、モーションキャプチャ、Maskはマスキング、Renderは膨大な時間をかけていたCGレンダリングの世界を大きく変革していくことでしょう。

Gen-1 の元となった論文 “Structure and Content-Guided Video Synthesis with Diffusion Models” も公開されています。

論文：Structure and Content-Guided Video Synthesis with Diffusion Models（拡散モデルを用いた構造と内容を導く映像合成手法）

こういった論文を詳しく読み解く場合、論文著者の書いた他の論文をチェックしたり、論文中で引用されている論文、また逆にこの論文を引用している他の論文などを探していきます。研究者であれば、研究活動のひとつとして当然のごとく行っていた事柄も、現在はAIの手助けによって加速的に調べて理解を深めることができるようになってきています。

Connected Papers：ある論文の関係論文との関係性や引用関係のつながり、影響度合いを図示してくれる

さらに、Gen-1の登場の経緯として興味深いのは、純粋なAI研究の延長線上にGen-1が登場したのではなく、映像制作のクリエーターたちとともに、現場のニーズをとらえつつ、映像制作の手順やワークフローを考えながら Gen-1 の実装が作られていったことです。ライバルソリューションである Text2Live や Stable Diffusion 1.5 といった従来手法よりも生成動画の評価が高いことと、単なる映像制作の手段というだけでなく、Gen-1は「ストーリーテリング（物語を紡ぎ出す）」手段だとアピールしています。

デモとして公開されている Gen-1の生成した短編動画はそれぞれ技術デモとしての役割だけでなく、映像作品としても印象的なものが揃っています。もしAIが制作したと知らなかったとしても動画作品として成り立つほどの印象を与えているのです。

「現在主流となっているAIの大規模言語モデルを巨大化させるだけでは、AI活用は次の段階に発展することは難しい。規模の拡大だけに頼るべきではない」という主旨のことをMetaのチーフAIサイエンティストYann LeCun氏が論文やイベント等で発言しています。AIは自らの影響を予測する必要があると考えているそうです。

AIの真価は試行錯誤のスピードと回数

Runway ResearchはGen-1をふくむAIを活用したさまざまな映像系ソリューションを展開しています。あるアメリカのバラエティ番組では、それらを活用することで通常制作と編集に5時間ほどかかる作業を5分で完了したそうです。また、ミシェル・ヨーの活躍で注目を浴びている2023年3月に公開予定の映画「Everything Everywhere All at Once」のVFXチームでも活用され、映像から余計なものを除去したり、映像の中に加えたいシーンを文章で指示して生成し合成しているそうです。

Gen-1 とよく似たソリューションとしてはMetaのMake-A-VideoやGoogleのPhenaki、Dreamixがありますが、何となくすごいけれどもあくまで研究段階、見栄えの良いデモとして受け取られがちです。一方、Gen-1は映像制作にすぐにでも取り入れたくなる魅力や機能、配慮が伝わってきます。

今後は、Gen-1のようなジェネレーティブAIに適切な指示を出し、試行錯誤のスピードと回数を増やし、そこからできあがる最終的な映像をどれだけ素晴らしいものにできるかが人間クリエーターに残された道なのかもしれません。言葉で指示したら的確な映像を制作してくれるAIと人間の関係性は、映像ディレクター職の指示と、その指示を具現化する映像クリエーターの関係性に近いのかもしれませんし、それ以上のものかもしれません。

Runway Researchは「クリエイティビティの未来が、すべての人にとってアクセスしやすく、制御可能で、力を与えるものであることに注力する」ことを目標として掲げています。その言葉どおり、ハリウッド映画の最新CG/VFX級の映像制作がスマートフォンで使えるようになる日も近そうです。

本連載の今後の予定：「CGへの扉」では、単なるAIの話題とは少し異なり、CG/VFX, アートの文脈から話題を切り取り紹介していきます。映像制作の現場におけるAI活用や、AIで価値が高まった先進的なツール、これからの可能性を感じさせるような話題、テクノロジーの話題にご期待ください。何か取り上げて欲しいテーマやご希望などがございましたら、ぜひ編集部までお知らせください。

CGへの扉：

Vol.46：AIを活用したCG論文紹介 #SIGGRAPHAsia2022 より

Vol.45：大規模言語モデルChatGPTは仲間？ライバル？

Vol.44：AdobeMAX2022開催。SneaksよりAI活用の方向性を知る

Vol.43：AI絵師は3DCGの領域へ

Vol.42：現代の呪文promptが生み出すAIとの新しい関係性

Vol.41：AIが促進させるCG研究。SIGGRAPH2022論文より

Vol.40：知見の宝庫。MITの機械学習オンラインコース

Vol.39：言葉から生み出されるアートとは？

Vol.38：AIで作りAIで届ける映像作品

Vol.37：NVIDIA GTC 2022 レポート／アートとAIの視点で

Vol.36：創るためのAI〜AIと人間の創造性の未来：徳井直生氏講演レポート