多様な架空人間プレイヤーをパートナーにして学習するDeepMindの「架空協力プレイAI」とは？

2021.12.23先端技術

DeepMindが開発した囲碁プレイAI「AlphaGo」に代表されるように、現在ではさまざまなゲームでトップレベルの人間プレイヤーを凌駕するゲームプレイAIが開発されています。その一方で、人間とうまく協力してゲームをプレイする協力プレイAIの研究はまだ発展途上です。本稿では、DeepMindが発表した論文を要約することで協力プレイAI研究の最前線を紹介します。

凌駕するより協力する方が難しい

協力プレイAI研究は、人間と協働するAIを開発し普及させるうえで不可欠な知見をもたらすと考えられます。この研究分野で最近わかったことは、単にゲームスキル（つまりタスク遂行能力）が高いだけでは人間にとって好ましい協力プレイAIにはならない、ということです（以下に示す参考記事も参照）。こうしたなかDeepMindは10月15日、協力プレイAIを開発する新手法を論じた論文を発表しました。

NeurlPS 2021に採択された以上のDeepMindの論文では、既知のアルゴリズムが採用された協力プレイAIと同社が考案したアルゴリズムが採用されたそれにパズルゲーム『オーバークック』をプレイさせる比較実験の顛末が書かれています。『オーバークック』とは、さまざまなレイアウトの厨房をステージとして、食材を運んでから調理して料理を提供するまでの一連のアクションをパズルゲームに落とし込んだものです。

比較実験にあたり、DeepMindは以下のような既知の協力プレイAIを用意しました。

セルフプレイ（Self Play：以下「SP」と略記）：自分自身をパートナーにして協力プレイを学習したAI。ヒューマンライクなゲームプレイを習得しないため、人間との協力プレイを苦手とする。
集団プレイ（Population Play：以下「PP」と略記）：さまざまなパラメーターをもった複数のゲームプレイAIをパートナーにして協力プレイを学習したAI。人間との基本的な協力プレイが可能だが、多様なプレイスタイルには対応できない。
行動模倣プレイ（Behavioral Cloning Play：以下「BCP」と略記）：人間のプレイヤーから収集した大量のプレイデータから学習したAI。人間との協力プレイに優れるが、学習データを用意するのに多大な労力が必要とされる。

参考記事：強化学習AIは人間に嫌われる？カードゲーム「花火」からわかった強化学習の弱点

参考論文：人間からのデータなしで人間とコラボレーションする

多様な架空プレイヤーを学習パートナーにする

以上のような既知の協力プレイAIがあるなか、DeepMindが目指したのは人間との協力プレイに優れているうえに、人間から収集したプレイデータが不要なAIでした。この目標を達成すべく考案されたのが、架空協力プレイ（Fictitious Co-Play：以下「FCP」と略記）でした。

FCPを簡単に説明すれば、PPの発展形です。さまざまなパラメーターをもったゲームプレイAIを学習パートナーにする点において、FCPとPPは共通しています。FCPとPPの違いは、前者は学習が途中のゲームプレイAIもパートナーにする点です。協力プレイを充分に習得していないAIもパートナーにするのは、さまざまなプレイスキルの人間プレイヤーと協力プレイできるようにするためです。また、学習パートナーはPPと同様にAIのみから構成されているため、BCPのように人間のプレイデータを収集する必要がありません。こうしたFCPは、言わばさまざまなプレイスタイルとプレイスキルの架空の人間プレイヤーをパートナーにした学習方法と言えます。

以下に引用する画像は、DeepMind発表の論文に掲載された前述の4種類の協力プレイAIの違いを図式化したものです。実線の矢印はAIがAIを学習パートナーとする関係を表し、破線の矢印はAIが人間のプレイデータから学習することを意味します。FCPを表す図に人間が関与する破線がないことがわかります。

比較実験の実施にあたっては114人の年齢の異なる男女が集められ、被験者に各AIと『オーバークック』の協力プレイをしてもらいました。実験のプロセスは、以下のようなものでした。

被験者には、ランダムに選ばれた厨房ステージで協力プレイAIを変えながら20回プレイしてもらう。
ステージは2プレイごとに変わり、被験者は同じステージを異なった協力プレイAIとプレイする。
2プレイごとに「どちらの協力プレイAIを好むか」という質問に答えてもらう。つまり、同じステージという条件下で協力プレイAIの選好を確認する。
4種類の協力プレイAIのほかに、学習途中のゲームプレイAIをパートナーから除外したFCPも比較実験対象に加えた（このAIは、便宜上「FCP-T」と略記）。

以上のような実験を実施した結果は、以下のような画像にまとめられます。

画像中の「Deliveries（提供数）」はゲームで提供できた料理数を意味しており、提供数が多いほどハイレベルな協力プレイができたと言えます。画像左側は協力プレイAIごとの提供数を比較した棒グラフであり、FCPがもっとも優れていることがわかります。中央の棒グラフは、FCPとFCP-Tの提供数を比較したものです。このグラフから、学習途中のAIを学習パートナーに加えると協力プレイスキルが上がるのがわかります。

画像右側が、協力プレイAIの選好を尋ねた結果を集計したグラフです。同グラフにおいて例えば画像最上行のFCPと2列目のBCPが交わる「0.35」は、同じステージでプレイしたFCPとBCPについて選好を尋ねた結果を集計したら、FCPを好んだことを意味する選好指数が0.35であったことを表しています（選考指数が高いほど好まれる）。このグラフから、FCPの選考指数がほかのAIに比べて高いことがわかります。

実験の結果、FCPが協力プレイに優れており、なおかつ人間から好かれる傾向にあると結論づけられます。

新たな課題も明らかに

DeepMindの論文は、以上の実験結果をうけてFCPをさらに発展させるために解決すべき課題として以下の3項目を挙げています。

複雑なゲームの学習：実験に使った『オーバークック』よりルールが複雑で協力戦略も多様なゲームをプレイする場合には、学習パートナーとなるAIを大量に用意しなければならない。
報酬の定義：協力プレイAIが学習する過程において、「好ましい協力プレイ」がより選択されるように報酬を設定しなければならない。複雑なゲームにおいては、AIが報酬と認識するものと人間プレイヤーが認識するそれに齟齬が生じる可能性がある。こうした齟齬が生じてしまうと、人間とAIの協力プレイがうまく成立しなくなる。
価値観の一致：そもそも協力プレイAIが選択する行動が、人間プレイヤーの価値観に沿うものでなければ協力プレイは成立しない。ゆえに協力プレイAI開発には、プレイスキルの向上と同時にヒューマンライクな価値観や倫理を実装しなければならない。

以上の課題を解決するには、さらなる研究が不可欠でしょう。とくに「報酬の定義」や「価値観の一致」に関しては、人間どうしの協力においても重要となる課題です。それゆえ、協力プレイAIを進化させるには、人間どうしの協力関係を考察して得られる知見が役立つかも知れません。

Writer：吉本幸記