ラベルなしの動画を学習してゲームワールドを生成するGenieの可能性

2024.3.18ゲーム

近年の生成AIは、テキスト、画像、そして動画や3Dオブジェクトとその生成対象を拡大しています。こうしたなかDeepMindは2024年2月、ラベルなしの動画を学習してインタラクティブなゲームワールドを生成するモデルGenieを発表しました。本稿はこのモデルの革新性を解説したうえで、その可能性も明らかにします。

キャラクターとワールドを分けて生成

ディズニーアニメ『アラジン』に登場するランプの魔人にちなんだGenieは、ゲームプレイ動画を生成するモデルではありません。同モデルは、人間プレイヤーが制御可能なゲームキャラクターと、そのキャラクターが動作する背景となるゲームワールドの両方を生成します。最終出力は一見するとゲームプレイ動画のように見えますが、キャラクターは画面の一部ではなく、同モデルが前進やジャンプといった制御を生成することでゲームワールドと相互作用しているのです。

Genieは、以下のような3つのコンポーネントから構成されています。

動画トークナイザー：任意の動画フレームに関して、次の動画フレームを生成するコンポーネント
潜在行動モデル：任意の動画から制御可能なオブジェクトを抽出して、そのオブジェクトが可能な行動を学習したうえで、オブジェクトの動作を出力するモデル。
ダイナミックモデル：動画トークナイザーと潜在行動モデルの出力を統合して、ゲームキャラクターの動作とその動作と相互作用するゲームワールドを生成するモデル。出力形式は、動画フレームとなる。

潜在行動モデルの学習においては、ラベルなしのゲームプレイ動画を利用します。つまり、制御可能なキャラクターを背景から区別するラベルや、キャラクターを制御する（ジャンプといった）コマンド情報に関するラベルを付与していない動画から学習できるのです。同モデルは、データの特徴を抽出する技法のひとつである教師なし学習によって、キャラクターとその制御情報を学習します。

ダイナミックモデルから出力された動画フレームは、動画トークナイザーと潜在行動モデルに再帰的に入力されます。出力を入力に再利用することで、最初に任意のフレームを入力するだけでゲームキャラクターとゲームワールドを連続的に出力します。

以上のようなアーキテクチャを有したGenieは、テキスト、人間が手書きしたゲームに関するスケッチ、さらには物理世界を映した静止画を入力すれば、入力情報の特徴を反映したゲームワールドとそこでプレイするキャラクターを生成します。

物理的なロボットの動作生成にも適応可能

Genieの学習データセットには、インターネットで公開されている2Dゲームのプレイ動画が収集されました。具体的には10FPS、160 x 90の解像度、16秒の動画を680万本、総再生時間が3万時間におよぶ学習データを用意しました。

Genieの汎用性を検証するために、実在のロボットアームに関する動画も学習データセットとして用意しました。同モデルが2Dゲームワールド生成にとどまらない性能をもっているならば、任意のロボットアームに関する静止画を入力すれば、その静止画から推測されるロボットアームの動作を生成できるというわけです。

Genieの生成結果を観察すると、ゲームワールドにおける遠近から生じる視差も確認できました。ゲームワールドがスクロールする際に、プレイヤーの近くに位置する前景は中景や遠景より大きく動き、反対に遠景はわずかしか動きません。

ロボットアームの動作生成については、任意の静止画を入力すると、ロボットアームが静止画に写っているオブジェクトをつかむ動画が生成されました。動画の生成に伴って、「上」「下」のようなロボットアームの制御情報も出力されました。さらにポテトチップスの袋をつかむと、その袋がしわをよせながら小さくなるといったオブジェクトとの相互作用を忠実に再現することも確認できました。こうした結果から、Genieは一種の物理シミュレーターとして動作していると言えます。

Genieの検証実験では、モデルサイズと学習時の計算性能を変えて訓練誤差（Traning Loss：学習データにおける実際の出力とGenieが生成した出力の誤差）を測定してみました。その結果、モデルサイズと学習時の計算性能が大きくなればなるほど、訓練誤差が減少することがわかりました。また、1回の学習当たりの学習量を意味するバッチサイズを変えてみたところ、バッチサイが大きいほど、訓練誤差が小さくなりました。これらの結果から、Genieにはモデルサイズが大きいほど性能が向上するスケーリング則があると結論づけられます。

汎用AIエージェントの学習環境を生成する可能性

Genieはゲームキャラクターを動作させる制御情報とゲームワールドを生成しているため、その出力結果は一意に決まるのではなく、ゲームキャラクターが可能な動作に応じて無数にあります。こうした生成結果の多様性も、以下の画像のように検証実験によって確認できました。

Genieがさまざまなゲームプレイスキルを習得できるかどうかに関する実験も行いました。具体的には、強化学習環境のひとつである2Dゲーム『CoinRun』の難易度を「簡単（Easy）」あるいは「難しい（Hard）」に設定したうえで、同ゲームの上級プレイヤーがそれぞれの難易度をプレイした動画を学習データとして収集しました。Genieのプレイスキルを比較するために、ランダムにプレイするボットと上級者レベルのプレイを模倣できるビヘイビア・クローン（behavioral cloning）も用意しました。

以下のグラフは、横軸に学習データとして与えたゲームプレイ動画のサンプル数、縦軸にゲームクリア達成度として、Genieのゲーム習熟度の推移を表したものです。「簡単」「難しい」の両方において、サンプル数が200を超えたあたりからビヘイビア・クローンと同程度のクリア達成度となりました。この実験により、同モデルはプレイスキルを指定した学習が可能であることがわかりました。

現状のGenieには、いくつかの制限事項があります。1つ目の制限事項は、生成AI全般に見られるハルシネーション（幻覚）です。同モデルは時として、まったく整合性のとれない動画フレームを生成してしまいます。2つ目は、1回に生成できるフレームが16フレームに限られていることです。3つ目は、生成速度が1FPS（1秒間に1フレーム）と非常に遅いことです。

以上のように制限があるものも、Genieには大きな可能性があります。同モデルは、テキスト入力や1枚の画像からキャラクターとゲームワールドを生成できるので、ゲーム開発の技術的敷居を大きく下げるポテンシャルを有しています。また、無数の相互作用可能なバーチャルワールドを生成できる能力は、多様な環境で動作する汎用AIエージェントの学習環境の創出に流用できると考えられます。

DeepMindは史上初めてトッププロ囲碁棋士に勝利したAlphaGoをはじめとして、一貫してゲームをテーマにしたAI研究開発を進めています。こうした同社の動向はゲーム業界の振興を目指しているというよりは、ゲームをプレイしたりゲーム自体を生成したりするAIを研究することで、AIをAGIあるいは汎用AIエージェントに近づけようとしていると解釈するのが妥当です。そして、こうしたAIを進化させようとする同社の研究には、今後も注目すべきでしょう。

Writer：吉本幸記