世界内でタスクを遂行する「自己改善型マルチモーダルエージェント」の原初形態としてのDyanlangの紹介

2023.10.25ゲーム

代表的な大規模言語モデルであるGPT-4やBardは文章生成のみならず画像認識能力が実装されることで、テキスト情報と視覚情報を関連付けて所与の情報処理タスクを遂行できるようになりました。こうしたなか2023年7月末にカリフォルニア大学バークレー校の研究チームは、テキスト情報と視覚情報の新たな関連性を活用するAIモデルを発表しました。本稿ではこのAIモデルを紹介することで、テキストと視覚情報を統合して世界内でタスクを遂行する「自己改善型マルチモーダルエージェント」の可能性を明らかにします。

DremerV3を拡張

カリフォルニア大学バークレー校の研究チームが発表した論文「言語で世界をモデル化することを学習する（Learning to Model the World with Language）」は、テキスト情報によって視覚的世界の変化を予測できるAIモデル「Dynalang」を提案しています。このモデルは、例えば「玄関ドアを開けて右側に見えるドアから部屋に入って、その部屋にあるゴミ箱にゴミを捨てる」という言葉による指示を実行できるロボットに実装されるAIを想定して研究されています。言葉による指示を実行するには、指示で説明された通りに視覚的世界が変化することを予測したうえで、変化した世界のなかで適切に行動する能力が求められます。

言語による視覚的世界の予測を実現するために、研究チームはDeepMindらが発表したDreamerV3を拡張することにしました。このAIは、視覚的世界の変化を予測する世界モデルを実装することで、学習データなしでMinecraftのダイヤモンド採取に成功しました。こうした世界変化の予測能力を視覚情報だけではなく、テキスト情報を活用できるように進化させて誕生したのがDynalangなのです。

参考記事：学習データなしでMinecraftのダイヤモンド採取に成功。世界モデルを採用したDreamerV3の意義

Dynalangの開発にあたっては、（ゲームのような）学習空間における任意の時点に関するテキストと画像を統合した情報を入力として、入力時点に後続する学習空間情報を出力するように訓練しました（下のグラフの「(a) World Model Learning」参照）。同モデルをアーキテクチャ的観点から言えば、ある時間点に後続する状態を出力するリカレントニューラルネットワーク（Recurrent Neural Network、略称「RNN」）となります。

Dynalangは世界の変化を予測するだけではなく、変化する世界のなかで目標を達成できるようにも訓練されています。具体的には世界の変化を予測しながら、予測された世界において目標を達成する最適な行動を学習しました（上のグラフ「(b) Learning to Act by Latent Imagination」参照）。こうした学習には、DreamerV3に実装されている報酬を予測する「クリティック（批評者）ネットワーク」と報酬を最大化する行動を学習する「アクター（行動者）ネットワーク」が流用されました。このようにDynalangは、マルチモーダルな強化学習モデルという側面も認められます

4つのテストゲームで好成績

研究チームはDynalangの性能を実証するために、テキスト情報にもとづいた世界予測が重要となる4つのテストゲームを実施しました。なお、このテストでは既存マルチモーダル強化学習モデルであるIMPALAとR2D2を比較対象モデルとして選びました。

1つ目のゲーム「HomeGrid」は、グリッド（格子）座標上に描画された部屋のなかで「ゴミを拾ってゴミ箱に捨てる」のようなテキストによる指示を遂行するというものです。ゲームプレイ時には、指示の達成に役立つヒントがテキスト情報として与えられます。このヒントを生かすには、部屋の視覚的状態とヒントを統合する能力が求められます。このゲームでは、以下のグラフにようにDynalangがもっとも好成績をあげました。なお、グラフ中の「Task Only」はヒントなしのプレイを意味し、「With Future」はゴミの在り処に関するヒント、「With Correstions」はゴミから離れた場合に警告を発するヒント、「With Dynamics」はゴミ箱の開け方に関するヒントがある場合のプレイ成績を表しています。

2つ目のゲーム「Messenger」は、ゲームフィールド内にあるゲームアニュアルを取得して内容を理解したうえで、ゲームをクリアするというものです。マニュアルには避けるべき敵キャラクターやゴールの位置等が書かれています。このゲームを使ったテストでは、同ゲームのために訓練されたモデルであるEMMAも比較対象としました。テストの結果、それぞれのモデルが試行錯誤を経てゲームスコアを高めていくなか、Dynalangが最高成績を収めました。とくにもっとも難易度の高いフィールドでは、Dynalangだけがスコアを高めていきました。

3つ目は、3D表現されたバーチャルな屋内を言葉による指示にしたがって目的地まで移動する「VLE-CE（Vision-and-Language Navigation in Continuous Environments）」のテストを実施しました。このテストでは、Dynalangだけが試行錯誤を経て成功率を高められました。

4つ目は、「○○（○○には花瓶などの任意のオブジェクト名が入る）の色は何ですか」という質問に答えるためにAIエージェントがゲームフィールド内を探索する「LangRoom」でした。前述の3つのゲームは言葉を活用した世界の予測能力を問うものでしたが、LangRoomはゲーム世界を参照したうえでの文章生成能力を測定するものです。このテストによって、Dynalangはゲームプレイを通じて言わば拡張された文章生成能力を向上させられることがわかりました。

テキストのみから学習する「座学」も可能

研究チームは、Dynalangがテキストのみから学習可能などうかもテストしました。具体的には、前述のMessengerゲームで活用される大量のゲームマニュアルのみを学習しました（実際のMessengerでは、大量のマニュアルのうち1つがゲームプレイ時に設定される）。その結果、マニュアルを事前学習したDynalangは事前学習なしのそれに比べて高いスコアを達成するようになりました。

以上のテストによって実証されたゲームプレイを伴わない言わば「座学」による事前学習の有効性は、Dynalangに対して特定のゲームに限定されない汎用的な事前学習を実行できることを示唆しています。つまり、さまざまなゲームプレイに関するテキストや動画を学習すればするほど、あらゆるゲームのプレイがより上達する可能性が高いのです。

4つのテストゲームと事前学習によってその性能が実証されたDynalangの特徴をまとめると、言語にもとづいた世界予測と世界にもとづいた文章生成によってタスクを遂行するモデルだと言えます。そして、こうしたマルチモーダルな能力は、テキストあるいは動画を用いた学習によって向上させられるのです。ちなみに研究チームは、同モデルを「世界の人間と対話する自己改善型マルチモーダルエージェント」への道を拓くもの、と表現しています。

Dynalangは、画像認識と自然言語処理の最新統合形態であるGPT-4をはじめとする大規模言語モデルとは異なった系統の進化を遂げる可能性があります。というのも、前者は世界内でのタスク遂行を目標としているのに対して、後者はデジタル情報処理の高度化を目指しているように見なせるからです。こうした比較により、Dynalangは人間と生活するロボットに実装するAIとして進化するのではないか、とも考えられます。

現在AI研究開発の注目は大規模言語モデルに集まっていますが、Dynalangのようにそれらのモデルとは異なった進化を遂げるかも知れないマルチモーダルモデルの動向にも注意を向けるべきではないでしょうか。

Writer：吉本幸記