CGへの扉 Vol.60：AIは世界を認識したのか？ Soraが描き出す物理世界

2024.3.25アート

シミュレーション仮説

哲学者ニック・ボストロム氏の提唱する「シミュレーション仮説」をご存知でしょうか？これは、私たちが生きているこの世界が人間ではない高度な知的存在がつくった、ある種の計算機によるシミュレーションであるという仮説です。一見突拍子もない考えではありますが、単純に否定できない面もあります。例えば人間もコンピュータによって人工生命をシミュレーションしたり、気候変動や薬の効果など、さまざまな現象をシミュレーションしています。

オープンワールドのゲームのように、世の中のすべての事象がシミュレーションされているのかもしれないと想像すると「シミュレーション仮説」も、もしかしたらありえるかもしれないと、その存在をイメージすることができます。つまりは、映画『マトリックス』で描かれている世界のように、AIによって作られた仮想的なシミュレーションの世界で、人間は脳の働きによって現実世界があると思い込んでいる、もしかしたら実在しないコンピュータによって模倣された意識だけかもしれないということです。

さて昨今のAIの革新スピードを考えると、AIがはたして意思を持つかどうかという要素に議論の余地がありつつも、AIが限りなく意思を持っているかのように振る舞うシミュレーションが実現するかもしれません。人工知能に関する世界的権威レイ・カーツワイル氏をはじめとする多くの研究者が、コンピューターテクノロジーの進化の過程から予想し、2045年には「技術的特異点」を迎えると論じています。現在のAI周辺の進化はめざましく、予想以上に早い時期に、さまざまな用途に対応できるAGI（汎用人工知能）が登場するとも言われています。

「技術的特異点」は、AIが人間の知能を超える時点を示します。その段階になるとAIは自己改良を重ねることで無限の成長が可能になり、自己増殖したり「自我」を持つ可能性も考えられます。この技術的特異点を超え、人間を超えるAIが現実化すると、AIが人間の理解を超えた判断や行動を取り始める可能性があるため、人類にとっては大きな脅威をもたらすと考えられています。

OpenAI Sora の登場

公式URL：https://openai.com/sora
論文：Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models

ChatGPTで世界を騒がせたOpenAIが2024年2月に、Sora を発表しました。Soraはテキストによる指示から表現力豊かな動画を生成するAIモデルです。テキストから動画を生成するソリューションはこれまでも数多く存在しました。Soraがそれらと比較して一線を画しているのは「world simulator（世界シミュレータ）」と呼ばれる物理世界を模倣した仮想世界を構築する概念のもとに映像が生成されることです。

機械学習のもととなった過去に撮影されたり生成された映像をもとに、視覚的にそれらしい映像をどこかで見たような素材のつぎはぎで生成するのではなく、現実世界での重力や加速、摩擦、水や風などの自然物の影響などを加味した上で、映像が生成されるのがSoraの大きな特徴です。実際には、破壊や液体の振る舞いなど、まだまだ物理的にありえない映像が生み出されてしまう場面はありますが、それらが是正されるのも時間の問題だと思われます。

生成AIで作られた画像や動画は、テキストによる指示を実現するべく生成されますが、Soraでは、被写体や背景、そこに存在する物体等が現実世界でどのように存在し、どう振る舞うかを考慮した上で映像を生成していると説明されています。また、従来の生成AIによる動画生成はフレーム間の変化に違和感があり、静止画をつないだような感覚のものが多くみられましたが、Soraでは生成された映像内での映像スタイルやキャラクタ表現に一貫性を持たせることで、映像として破綻が無いよう工夫されています。こういった工夫により現実感のある映像が生み出される一方、バスケットコートが爆発するといった一般的には起こり得ないような映像を生成させようとした場合、AIモデルは必死で爆発が無かった、もとの状態のバスケットコートを復元する流れで映像を補正する傾向が見られます。

Soraの映像生成のアプローチはまだ明らかになってない部分もあり、今後の解説が待たれます。ただ、どうやら映像制作のプロセスに物理計算がふくまれているのではなく、映像制作用の巨大AIモデルの登場によって、内部的に物理的な属性、三次元空間における物体の属性を持ち始めたのではないかと考えられています。つまりは、言語用のAIモデルと同様に、予想した以上の素晴らしい回答が得られる時もあれば、ハルシネーションと呼ばれる嘘や間違いがふくまれる場合もあるということです。

「抄訳：暖かく光るネオンとアニメーションの看板で埋め尽くされた東京の通りを歩くスタイリッシュな女性。黒いレザージャケット、赤いロングドレス、黒いブーツを身につけ、黒い財布を持っている。サングラスに赤い口紅。彼女は自信に満ち、さりげなく歩いている。通りは湿っていて反射し、カラフルな照明の鏡のような効果を生み出している」

これはSoraによって生成された動画の1シーンと、その生成のために与えたテキストプロンプトの一部（※Soraの論文より引用）です。

Soraによって作成された映像は、映画制作やゲーム映像制作を置き換えるとまでは言わないまでも、ストーリーボードの検討や、映画製作の一部分を担ったり、従来手間と時間がかかっていた映像制作要素における試行錯誤の回数と時間を節約する用途に活躍することでしょう。また教育コンテンツや広告などのマーケティングに至るまで、映像制作に望むと望まざるに関わらず、コストがかけられてきたさまざまな業界に影響を与えることが予想されます。コンセプトアートから想像しつつ映像制作するスピードも格段に早くなり、用途によってはコンセプトアートの必要性が無くなる工程もあるかもしれません。もちろん潤沢な予算と時間をかけた映像制作は今後も一定数残ると考えられますが、さまざまな分野でAIによる映像制作の活用が指数的に増加する可能性を秘めています。

さらにSoraによって映像の制作スピードと試行錯誤の回数やバリエーションを容易に増加させることによる新たな表現方法の創出も期待されます。巨大なセットを用意する、ロケ地に行って撮影する、膨大な手間をかけたCG/VFXを製作するといった手間を飛び越えて、監督や映像作家たちがイメージする映像を素早く何度でも生成し、試行錯誤を繰り返すことができるのです。

さらに活用範囲が増えるにつれ、映像生成の学習用として安全で偏りのないビデオ映像をどう確保するのか？あまりにもリアルな動画が生成されるために、フェイク動画によって混乱が起きるのをどう防ぐのか？プラス面の可能性とマイナス面の可能性両方の取り扱いが課題となってくるのは確実です。その影響かどうかは定かではありませんが、米国大統領戦が近い現在、選挙活動へのフェイク動画の影響を考え、Soraそのものは、まだ一般利用が公開されておらず、一部のアーティストや映像製作者に限って提供されているそうです。またSora一般公開の際には、C2PA（Coalition for Content Provenance and Authenticity）によるデジタルデータの来歴を暗号化して付記する仕組みを採用し、どんなツールでいつどこで誰が作ったデータなのか確認できるよう配慮が進んでいます。

物理現象に対する人間の感覚の鋭さ

このCG映像 “Carla’s Island” は、1980年代、初めてCGで表現された波のアニメーション映像です。制作したのは当時ローレンス・リバモア国立研究所のCGグループを率いていたネルソン・マックス氏らによるものです。当時は、こういった自然物の映像制作の難しさを克服した驚きとともに、新たなるCG表現の可能性に期待が寄せられ、大きな話題にもなりました。けれどもこの40年以上前のCG映像を見て、本物の波だと思う人は皆無で、表現の稚拙さにがっかりするかもしれません。現在、波に限らず、自然物に関するCG/VFX表現は、CGツールの物理表現技術の進化にともない、圧倒的なリアルさ、現実感を表現できるようになりました。マーベルシリーズを始めとするCG/VFX盛りだくさんの映像作品、海や水がテーマになった映画やドラマ、CM映像などで、実写と見分けがつかないほどのCG/VFXによる水の表現が活用されていますが、それでも違和感を覚えることがあります。

私たちは、日々の生活の中で摩擦や重力、水の動きといった無数の物理現象に囲まれて生活しています。これらの現象は私たちの感覚に深く根ざしており、無意識のうちに自然界のルールや立ち振る舞いを識別できるようになっています。CG/VFX、ゲーム映像など、現実と見間違うほどのリアリズムを生み出すことが可能になりました。しかし、これらの技術がいくら進化しても、人間の感覚を完全にだますことは困難で、物理法則に基づいた細かな動きや挙動に関して、人間は非常に敏感です。

例えば水の動きひとつとっても、それらは極めて複雑です。水面のゆらぎ、波紋の広がり方、滴の落ち方、水の流れる様子など、細部にわたって無数の要素が絡み合っています。膨大な時間と手間をかければ、こういった水の物理現象を限りなく本物に近いところまでシミュレーションして再現することは可能です。そういった表現は手間や時間のコストに見合うかどうかが微妙であり、どこかでシミュレーション計算が省略されます。またどんなに精細に時間をかけて映像制作したとしても本物の繊細さ、仔細さにはかないません。CGで再現された水は、視覚的には本物と見分けがつかないほどになりますが人間が日常的に経験している水の動きと、わずかに異なる挙動を無意識のうちに察知し、何かが「違う」と感じることがあります。

摩擦や重力の効果も同様です。私たちは、物がどのように動くか、落ちるか、滑るかを本能的に理解しており、Soraでそれらの物理現象がどれだけ正確に再現できるのか、現実と比べて違和感がないかが、これからの生成AIにおける評価対象になると考えられます。今後、技術がさらに進化し、より細かな物理現象の再現が可能になるにつれ、生成された映像と人間が持つ感覚との「現実感」のギャップを埋めることがクリエイターや技術者にとっての大きな目標となるでしょう。

想像性は果たして文章による指示の結果だけで事足りるのか？

映像制作に限らず、文章も絵画も、創作にまつわる工程はアーティストによって人それぞれです。頭の中に完成イメージがすでに出来上がっていて、それを頭の中からアウトプットするだけのタイプの製作者から、ラフな完成イメージを手を動かして試作することから、新たなイメージを得て完成形に近づけていく、「手を動かす」ことで自分の目と頭で反芻し、そこで得られた情報や感覚をさらなる創作につなげるタイプのアーティストもいます。

また本人は手を動かさずとも、才能のある人材を束ねて的確に指示すること素晴らしい作品を生み出す、プロデューサータイプのアーティストもいるでしょう。生成AIでは、テキストプロンプトで指示を与えるものがほとんどです。Soraのように画像とテキストプロンプトを組み合わせて雰囲気やスタイルを伝えるものもありますが、AIモデルの関係で基本はテキストです。つまりは、言葉で指示して何かを生み出すだけが、作品作りのスタイルではないはずなのに、未だテキストで表現できる範疇に制限されているということです。

人間は身体を持ち、物質的な体験や経験、感情、経験、対人関係といった人間特有の時間の過ごし方から、さまざまな表現や想像力を発揮して新しいものを考え、生み出していきます。一方、どんなアート作品も、過去の作品の焼き直しでしかないという考え方もありますが、まだまだ人間にしか生み出せない表現はあるのでは？と考える一方で、それらは全てAIに凌駕されていくという考えも捨てられません。どちらにしろ、何かを生み出したり、作ることそのものを楽しみとして人類がクリエイティビティを追い求め、それを楽しむことはこれからも変わらず、生成AIの進化や研究が加速していることそのものも、実は人類のクリエイティビティなのではないかと考えています。

本連載の今後の予定：「CGへの扉」では、単なるAIの話題とは少し異なり、CG/VFX, アートの文脈から話題を切り取り紹介していきます。映像制作の現場におけるAI活用や、AIで価値が高まった先進的なツール、これからの可能性を感じさせるような話題、テクノロジーの話題にご期待ください。なにか取り上げて欲しいテーマやご希望などがございましたら、ぜひ編集部までお知らせください。

CGへの扉：

Vol.59：生活に浸透するAI、身の回りの「弱い」AI

Vol.58：生成AIによる映画産業の業務の置き換えはどこまで可能か？

Vol.57：AIを活用したCG論文紹介 #SIGGRAPHAsia2023 より

Vol.56：ハリウッド映画の自動生成も間近か？ AI動画の可能性

Vol.55：AdobeMAX2023開催。生成系AI全盛のSneaks

Vol.54：SIGGRAPH 2023基調講演における注目のAIトピック

Vol.53：CGの祭典SIGGRAPH50周年にみるAIの台頭

Vol.52：制作の現場に進出しつつあるAI

Vol.51：広告産業の事例が教えてくれる創造性を加速させるAIの活用法

Vol.50：脅威論がある一方で公式化する動きも。生成系AIに対する各界の反応

Vol.49：AI時代の勝者NVIDIA #GTC2023 レポート