大規模言語モデル駆動型ゲームプレイAIが登場

2023.7.24ゲーム

ChatGPTをはじめとするLarge Language Model（大規模言語モデル、以下「LLM」と略記）は、ゲーム業界でも活用されています。具体的にはNPCの会話機能にLLMを活用したり、TRPGのGMを演じさせたりした事例が報告されています。そして最近では、LLMにゲームをプレイさせる事例が発表されました。本稿ではこうしたLLM駆動型ゲームプレイAIを紹介します。

参考記事：大規模言語モデルがNPCやゲームマスターを演じる最新事例を紹介

ゲーム世界とのインタラクションをLLMで生成

近年のゲームプレイAI開発のテーマのひとつには、Minecraftが挙げられます。このゲームが選ばれる理由として、可能な行動が膨大であること、ミッションの完遂のような事前に定義された目標がないことがあります。こうした理由により、同ゲームは複雑かつ曖昧な物理世界の特徴をゲームシステムに反映させていると考えられています。モリカトロンAIラボでは、以前にOpenAIとDeepMindが開発したMinecraftプレイAIを紹介しました。

参考記事：ダイヤモンドのつるはしを作ったOpenAIのMinecraftプレイAIが持つ射程とは？、学習データなしでMinecraftのダイヤモンド採取に成功。世界モデルを採用したDreamerV3の意義

今回紹介するNVIDIAを中心とした研究チームが開発したMinecraftプレイAI「Voyager（ボイジャー：「航海者」を意味する英単語）」は、アーキテクチャの中核に現在最高峰のLLMのひとつであるGPT-4を活用しています。LLMに着目したのは、DeepMindが開発したMinecraftプレイAI「DreamerV3」で成果を上げたゲーム世界を理解するコンポーネント「世界モデル」をさらに進化させるためでした。人間に匹敵する言語能力を発揮するLLMにゲーム世界を理解させれば、人間と同等のプレイが実現すると考えたのです。

Voyagerは、LLMをふくんだ以下のような3つのコンポーネントから構成されています。

自動カリキュラム：Minecraftの探索を最大化するように、具体的な行動を計画する。計画立案には、GPT-4の文章生成機能を活用する。
スキルライブラリ：「木を切る」などのタスクを埋め込み情報として保存するライブラリ。
反復プロンプトメカニズム：自動カリキュラムから与えられる行動目標を実行するために、Minecraftのプレイを実行するコードを生成する。コード生成には、GPT-4を活用する。コード生成時にはスキルライブラリを参照したうえで、所与の行動を遂行できるスキルを絞り込む。目標行動を遂行できる適切なスキルがない場合、複数のスキルを合成して新たなスキルを生成する。

反復プロンプトメカニズムにおいて、Minecraftの基本動作を生成せずにコードを生成するようにしたのは、後者のアプローチのほうがより広範囲なプレイを記述できるからです。

ダイヤモンドのつるはしを最も早く作り、最も広く探索した

Voyagerの性能を実証するため、既存のMinecraftプレイAIと比較する実験が実施されました。その実験とは事前学習がない状態で各AIにMinecraftを最初からプレイさせて、「木のつるはしを作る」といったスキルの習得速度を比較するというものでした。実験結果は、以下のグラフのようにまとめられます。Voyagerは同ゲームで最高難度のスキル「ダイヤモンドの道具を作る」を最も早く習得しました。

実験では探索範囲も比較されました。探索範囲の比較は、以下のグラフのように表せられます。薄茶色の円で示された部分がVoyagerの探索範囲で、比較AIより格段に広いことがわかります。実験設定によっては、Voyagerの探索範囲は比較AIの2.3倍になりました。

実験開始条件として、一切のアイテムを持たないで未経験のMinecraftワールドをプレイすることを設定した「ゼロショット汎化（Zero-Shot Generalization）」実験も行われました。この実験によって、短期記憶に左右されない真のプレイスキルを比較できます。この実験の結果は、以下の表とグラフのようにまとめられます。表のいちばん下の行の「Voyager（Oours）」がVoyagerを指しており、「ダイヤモンドのつるはしを作る」というタスクを約19回のプロンプト生成で達成したと読み取れます。

プロンプト生成回数の右に添えられた「（3/3）」とは、3回のプレイで3回とも課題タスクを達成したことを意味しています。この実験結果は、DeepMind開発のDreamerV3がプレイする世界によっては当該タスクを達成できなかったことと比較すると、Voyagerが大きく進化していることを意味しています。

VoyagerはMinecraftのプレイをコードとして生成する一方で、同ゲームの画面を認識できません。しかし、人間による視覚的サポートがあれば、複雑な建築物を構築可能であることも実証しました。具体的には、同AIと人間が協働して（異世界「ネザー」に行くための門である）ネザーポータルや家の建設が出来ました。この結果は、LLMがマルチモーダルモデルに進化した場合、より高度なMinecraftプレイAIを開発できることを示唆しています。

BabyAGIを改造

LLM駆動型ゲームプレイAIは、Voyagerだけではありません。ソフトウェアエンジニアのリリー・ヒューズ＝ロビンソン氏（Lily Hughes-Robinson）は2023年5月23日、自身が開発したテキストアドベンチャー『Colossal Cave Adventure』を自律的にプレイするAI「AdventureGPT」を解説した記事をMediumに投稿しました。

ロビンソン氏がAdventureGPTを開発するにあたって、参考にしたのが自律的エージェントの「BabyAGI」でした。BabyAGIとは「お金を1,000万円まで増やす」のような目標と「仮想通貨に100万円投資する」というような初期タスクを入力すると、目標を達成するためのタスクを連続的に生成したうえで、それらを目標が達成できるまで実行するAIです。タスクの生成と実行時には、OpenAIが提供しているLLM API（デフォルトではGPT-3.5 Turbo）を利用します。

AdventureGPTの開発にあたっては、BabyAGIをベースにしてColossal Cave Adventureを自律的にプレイできるようにしました。具体的には目標として「ゲームに勝つ」を設定し、初期タスクにはColossal Cave Adventureをプレイするための基本的なプレイの流れを記述したウォークスルーを用意しました。そして、BabyAGIにおけるタスク実行モジュールには同ゲームのテキストを出力するゲームエンジンを組み込みました。

以上のようにして開発されたAdventureGPTは、動作確認の後、すぐにGitHubで公開されました。ロビンソン氏の次なる目標は、LLMサービスを活用するためのライブラリであるLangChainによって同AIを動くようにすることです。この目標が実現すれば、同AIの性能や汎用性が向上することでしょう。

以上のようなLLM駆動型ゲームプレイAIは、今後さらに開発されると予想されます。Minecraftやテキストアドベンチャーゲームのように自由度が高いゲームをプレイするAIの開発には、そうした自由度に対応できるLLMの活用が望ましいからです。そして、LLMが画像認識にも対応してマルチモーダル化した時には、現在よりさらにヒューマンライクなゲームプレイAIが登場することでしょう。

Writer：吉本幸記