より柔軟な学びを目指して。人間の評価を組み込んだDeepMind開発のゲームプレイAI

2023.1.30ゲーム

近年のゲームプレイAI研究は、囲碁のようなターン制ゲームやStarCraft Ⅱのようなリアルタイムストラテジーで人間を凌駕するプレイを実現しました。これらのゲームには明確なルールがある一方で、物理世界における人間の営みの大部分はゲームのようなルールがありません。こうしたなか最近発表されたDeepMindの研究は、ルールがないなかで学習するゲームプレイAIの可能性を探求しています。本稿では、この研究を紹介します。

ルールがない環境での学び

DeepMindは2022年11月23日、柔軟に学習できるゲームプレイAIに関する公式ブログ記事を公開しました。こうしたAIを研究するにあたって、ヒントを得たのが人間の子どもの遊び部屋（プレイルーム）でした。遊び部屋には積み木やボールが多数用意されており、子どもはそれらから好きなものを選んで自由に遊ぶものです。こうした遊びにはチェスのような明確なルールはなく、さらにはどんな遊びが可能かについても事前に定義されていません。同社研究チームは自由に遊ぶ＝プレイするAIを開発するために、バーチャルな遊び部屋を用意しました。

ルールが不明瞭な状況で学習するゲームプレイAI研究に関して、DeepMindは以前にMuZeroを発表していました。もっとも、このAIはゲームのルールを事前に知らないだけで、ルールが定められたゲームを学習していました。対して今回のAIは、そもそもルールがないゲームのプレイを学習することを課題としています。

積み木やボールのような多数のオブジェクトが用意された遊び部屋にゲームプレイAIを入れただけでは、このAIはランダムにオブジェクトを操作する以上の行動を起こせません。そこで研究チームが実施したのが、遊び部屋に人間が操作するプレイヤーを入れることでした。この人間プレイヤーには積み木を高く積み上げたり、ボールをゴミ箱に入れたりたりして、ゲームプレイAIに遊び方を見せるように指示しました。人間プレイヤーは、AIに対して「遊びの手本」を見せたのです。こうした遊び方を見て、AIは学ぶべきゲームを知るのです。こうした人間プレイヤーからの学びには、模倣学習と呼ばれる技法が使われました。この技法と強化学習の違いは、前者は人間プレイヤーを模倣するだけで効率性などは考慮されないのに対して、強化学習はより速く動くといった効率性や目標が設定されることにあります。

人間の評価を組み込んだ強化学習

以上のような模倣学習には何百人もの人間プレイヤーが参加した結果、合計で25年分のプレイデータが収集できました。こうしたデータから学習したゲームプレイAIは、研究チームが想定していなかったプレイを実行するようになりました。例えば、色の異なるオブジェクトを交互に並べて列を作る、人間プレイヤーが持っているオブジェクトと似たオブジェクトを遊び部屋のなかから探し出す、といったプレイが観察されました。

人間プレイヤーのプレイを模倣できるようになったゲームプレイAIに対して、DeepMindの研究チームが次に行ったのがプレイを上達させることでした。前述したように模倣によって習得したプレイには、通常のゲームのように達成すべき目標がルールとして設定されていません。そこで研究チームは、人間プレイヤーにゲームプレイAIのプレイを評価してもらうことにしました。具体的には任意のプレイに関して、上手にプレイできた事例と下手な事例を選んでもらいました。そして、上手なプレイが実行された時には報酬を与えるようにして、ゲームプレイAIを強化学習しました。この強化学習が従来と違うのは、従来はゲームのルールから報酬を導入したのに対して、今回は人間の評価にもとづいて報酬を定義したところです。

人間の評価を組み込んだ強化学習を実施した結果、模倣学習のみを実施した場合と比較して、ゲームプレイAIのさまざまなプレイが上達しました。例えば、以下の動画では「リビングエリアで本を重ねて塔を築く」という課題に関して、模倣学習のみの場合と強化学習を実施した場合のプレイが収録されています。強化学習を実施したゲームプレイAIは、手際よく本を重ねているのが確認できます。

人間から学び、人間を超える

人間の評価を組み込んだ強化学習の可能性は、模倣学習のみの場合よりプレイを上達させることに限りませんでした。DeepMind研究チームは、ゲームプレイAIに対して強化学習を繰り返し実施してみました。その結果、プレイによっては人間プレイヤーを凌駕するパフォーマンスを発揮したのでした。例えば、任意のオブジェクトを使って塔を築くという課題に関して、人間プレイヤーの成功率が0.61だったのに対して、強化学習を1回実施したゲームプレイAIのそれは0.57、2回実施した場合は0.72でした。

人間の評価を組み込んだ強化学習はルールが不明瞭な環境における学習を可能とするだけではなく、人間のように振舞うAIを開発する際にも効果的です。例えば、2022年11月30日にリリースされると瞬く間に話題となった会話AIのChatGPTは、人間らしい回答を実現するために人間の評価者が好ましいと感じる回答を生成するように強化学習を実施しました。このように開発されたことで、同AIはかつてないほどに自然な質疑応答を実現したのでした。

もっとも、人間の評価を組み込んだ強化学習にも限界があります。上記のゲームプレイAIを論じたDeepMind発表の論文によると、実行するのに長期間を要する課題をプレイする場合には、人間がプレイを評価するのが困難になることを指摘しています。こうした長期間的な課題のプレイにおいては、プレイのどの部分が良い結果につながるのかについて、人間でも評価が難しいのです。

参考論文：人間からフィードバックを得た強化学習を使ったマルチモーダルなエージェントの改善

以上に紹介したゲームプレイAIは、同一環境における人間のプレイの模倣から始めて、人間の評価を通して人間を凌駕するプロセスを実現しています。このプロセスは、まるで優秀な弟子が師匠を真似て超えていく人間の営みに似ています。こうした「人間を真似て学ぶ」AIがゲームにおけるNPCに実装されれば、より人間社会に近いゲームになるかも知れません。

Writer：吉本幸記