汎用3Dゲームプレイエージェント「SIMA」の仕組みと進化の方向を解説

2024.4.22ゲーム

近年のゲームプレイAI研究は、ハイスコアを達成することから自然言語理解機能を組み込んで汎用的かつヒューマンライクなAIを実現することに目標がシフトしています。こうしたなかDeepMindは、人間の自然言語による指示に従って9つの3DゲームをプレイできるAIを開発しました。本稿ではこのAIについて解説したうえで、ゲームプレイAIの進化の方向性について考察します。

人間がプレイした9つのゲームから学習

DeepMindが開発したゲームプレイAI「SIMA」（Scalable Instructable Multiworld Agent：拡張可能かつ指導可能なマルチワールドエージェント）は、9つのゲームを人間の自然言語による指示にしたがってプレイします。プレイ可能なゲームにはヤギが登場する『Goat Simulator 3』、惑星探索ゲーム『No Man’s Sky』、工場建設ゲーム『Satisfactory』などが挙げられます。プレイするゲームの選定基準は豊かなビジュアルと複雑なインタラクションをそなえると同時に、極端な暴力や偏見をふくまないものとしました。さらに開発と評価を効率的に進めるために、4つの3D研究環境も用意しました。

SIMAの開発にあたっては、自然言語による指示と各ゲームにおけるプレイの関係を学習するために教師あり学習を行いました。学習データを作成するために、人間のプレイヤーが2人1組になって、1人が指示を出し、もう1人がプレイするデータを収集しました。プレイの指示は、テキストデータとして学習データに格納しました。

SIMAのアーキテクチャは、ゲーム画面と自然言語による指示が入力となり、その入力がテキストを処理するテキストエンコーダー、ゲーム画面を認識する画像エンコーダー、次に表示される画面を予測する動画エンコーダーに渡されてから、マルチモーダルTransformerでこれらのエンコーダーの出力が統合されます。そして、統合された情報にもとづいて指示にふさわしいプレイが選択されます。なお、それぞれのエンコーダーは事前学習済みであり、前述の学習データを使って追加学習しています。

SIMAが学習したプレイは、その成否を評価しやすいように約10秒以内に完了できるタスクに限定しました。プレイ対象となった9つのゲームはルールもビジュアルも異なりますが、「見る」「道具を使う」「戦う」といった基本的なタスクは共通しています。最終的には、以下の画像のような階層構造をもった600のタスクを習得しました。

人間には及ばないものの特化型エージェントを凌駕

以上のように開発したSIMAについて、ゲームごとに指示にもとづいたタスクの成功率をまとめると以下のグラフのようになります。グラフにおける色の違いは評価方法の違いであり、青は研究環境に実装した評価機能を用いた評価、赤は人間による評価、黄色はタスク成功メッセージなどの画像認識と人間による確認を組み合わせた評価を意味します。研究環境より実際の3Dゲームのほうが、SIMAにとって難易度が高いことがグラフから読み取れます。

タスクの成功率をカテゴリーごとにまとめると、以下のグラフのようになります。移動カテゴリーには「止まる」「動く」「見る」のタスクがふくまれますが、これらのなかでは「見る」がもっとも難しいことがわかります。「見る」タスクが相対的に難しいのは、見る対象に関する知識が必要だからと考えられます。興味深いのは、食料カテゴリーでは「調理する」より「食べる」ほうが難しいという直感に反する結果となったところです。一般に「戦闘する」や「建設する」のような正確な動きや空間認識を伴うタスクが難しい傾向にあります。

SIMAの評価では、9つのゲームすべてを学習した場合と、1つのゲームのみ学習した場合も比較しました。以下のグラフにおける「SIMA」は全ゲームを学習した場合、「Zero-Shot」は評価するゲームのみ学習していない初見プレイの場合、「No Pretraining」は各種エンコーダーに事前学習済みのものを使わない場合、「No Language」は意図的に言語理解を低下させた場合を意味します。このグラフより、特定のゲームに特化して学習するよりさまざまなゲームを学習するほうが、タスク成功率が向上することがわかります。

さらにNo Man’s Skyに関して、学習条件を変えてタスク成功率を比較した結果が以下のグラフとなります。全ゲームを学習した場合でも、人間プレイヤーには遠く及ばないことがわかります。

以上の評価結果より、今後SIMAの性能を向上させるにはさらに多くのゲームを学習することが得策と考えられます。

近年のゲームプレイAI研究から導かる進化の傾向

ゲームプレイAI研究におけるSIMAの意義を考察するには、この研究分野における近年の成果を振り返る必要があるでしょう。そうした振り返りの起点は、DeepMindが開発した囲碁プレイAIのAlphaGoがふさわしいでしょう。強化学習とディープラーニングを活用してトッププロ囲碁棋士に勝利したこのAIは、まさに第三次AIブームにおけるゲームプレイAIの嚆矢となりました。その後、学習データを活用しないAlphaZero、そして学習データもゲームルールに関する事前知識もなしで囲碁をはじめとしたボードゲームに加えてレトロゲームでもハイスコアを達成したMuZeroが開発されました。

参考記事：学習の秘訣は計画性にあり。ルールの知識なしで学習するゲームプレイAI「MuZero」の到達点と可能性

対戦型ボードゲームやレトロゲームはゲーム内で生じるインタラクションが比較的単純であるという限界があるため、ゲームプレイAIの新たなテーマとしてオープンワールド3DゲームのMinecraftが選ばれるようになりました。このテーマにおける最初の著名な成果はOpenAIが2022年6月に発表した、VPT（Video PreTraining：動画事前訓練）を活用してダイヤモンドのつるはしの作成に成功したAIでした。このAIは、Minecraftプレイ動画を見て操作方法に関するラベルを付けるAIモデルを開発したうえで、このモデルによって7万時間の学習データを用意したことで実現しました。2023年1月には、DeepMindが学習データなしでダイヤモンドのつるはしを作るだけではなく、レトロゲームでもハイスコアを達成するDreamerV3を発表しました。同AIには環境の変化を予測する世界モデルが実装されていました。

参考記事：ダイヤモンドのつるはしを作ったOpenAIのMinecraftプレイAIが持つ射程とは？

学習データなしでMinecraftのダイヤモンド採取に成功。世界モデルを採用したDreamerV3の意義

AlphaGoからMuZeroまでの進化と、MinecraftプレイAIの進化には共通した傾向が認められます。どちらの進化も、学習データが必要な段階からそれが不要な段階を経て、さまざまなゲームプレイが可能となる汎用性を獲得しているのです。こうした進化の傾向は、「ゲームプレイAIの定向進化」と呼べるでしょう。

次なる進化はLLMと世界モデルの融合か？

LLMが飛躍した2023年には、ゲームプレイAIとLLMの融合が試みられました。例えばスタンフォード大学の研究チームは2023年4月、ChatGPTで駆動する多数のNPCが暮らす村のシミュレーション実験を発表し、5月にはNVIDIAがGPT-4をアーキテクチャの中心に据えたMinecraftプレイAI「Voyager」を発表しました。そしてMicrosoft Researchは9月、人間プレイヤーとNPCが自然言語によって協力してMinecraftをプレイするLLM統合型ゲームエンジン「MindAgent」を発表しました。

参考記事：大規模言語モデルがNPCやゲームマスターを演じる最新事例を紹介

大規模言語モデル駆動型ゲームプレイAIが登場

LLM統合型ゲームエンジンとしてのMindAgentの可能性

MindAgentからSIMAへの進化をゲームプレイAIの定向進化から見ると、Minecraftからさまざまな3Dゲームをプレイする「汎用性の獲得」が実現したと言えます。定向進化にもとづけば、SIMAが進化する方向も見えてきます。次なる進化は「学習データなしで」（つまりはゲームプレイ自体からの学習のみで）プレイすること、となるでしょう。

学習データなしで自然言語による指示にもとづいてさまざまな3DゲームをプレイするAIを実現するには、SIMAのコアアーキテクチャに世界モデルを採用することで実現するかもしれません。というのも、学習データなしで3Dゲームプレイを習得するには、DreamerV3で実証されたように世界モデルが有効だからです。そして、汎用的な言語理解を実現するためにはSIMAで採用したテキストエンコーダーではなく、LLMを活用するのが妥当でしょう。まとめるとSIMAの先にあるパラダイムとは、「LLMと世界モデルが融合したゲームプレイAI」と言えるのです。

LLM世界モデル融合型ゲームプレイAIが実現した場合、それはさまざまな3D環境で複雑なタスクを解決できるものとなるでしょう。こうしたAIはもはや「LLM搭載万能型ゲームプレイAI」という立ち位置を超えて、AGI開発に役立つエージェントとなるでしょう。実際、DeepMindはSIMAの論文でこのAIの進化が「AGI の根本的な課題への取り組みに役立つ」と述べています。同社が一貫してゲームプレイAIを研究しているのは、AGIの実現というAI業界ひいては人類の究極目標を達成するためなのです。

Writer：吉本幸記