完全自動デバッグAIや格闘ゲーム接待AIの実現に向けたモリカトロンの挑戦 #CEDEC2020

2020.8.31モリカトロン

デカルトが機械論を提唱してから4世紀。ディープラーニングとビッグデータによって技術的特異点が現実味を増す中、人工知能が囲碁やポーカーで人間を負かし、仮想空間でのシミュレーションで現実世界を学び始め、自然言語処理能力で人間を上回り、果ては顔認識システムで人権を侵害し、完全自動の対空迎撃ミサイルで人命を脅かし、戦闘機の模擬空戦でパイロットを失業の危機へと追い込むまでに進化しても、デスクワークを代行できたり人間の遊び相手をしたりするほど、AI技術は身近なところで私たちと共存できていません。

ゲーム業界においては近年、自立型エージェントやメタAIといった技術がゲームメカニクスに革新をもたらしました。ゲームキャラクターが自ら考え行動し、ゲーム難易度が自動的に調整され、地形や街並みといったゲーム空間が自動生成される時代。次に注目されているのは、テストプレイやデバッグ作業の自動化、手加減や駆け引きを駆使した人間相手の接待プレイといった、ゲームの外側におけるAI技術の活用です。

9月2日からオンライン開催される国内最大のコンピュータエンターテインメント業界向け技術交流会「CEDEC 2020」を前に、ゲーム開発業務を大幅に効率化できるAI技術や、対戦格闘ゲームでプレイヤーを接待できるAI技術を研究するモリカトロンの開発現場を取材しました。

同社のセッション「攻略、接待、変更に強いAIプレイヤー開発のためのアプローチ」で発表される研究には、3Dアクションゲームに関するAI研究を担当したエンジニア、竹内将氏と本間翔太氏、そして格闘ゲームに関するAI研究を担当するエンジニア、馬淵浩希氏と岡島学氏の4人が関わっています。

テストプレイとバグ報告をAIがやってくれたら

このセッションでは、囲碁AI「AlphaGo」にも採用された深層強化学習という手法でビデオゲームを学習させたAIが、現実的な動作環境と計算コストでいかにゲーム開発者の役に立てるか、まさにゲームの外側におけるAI利用の可能性が検証されます。

その第一歩として竹内氏と本間氏が取り組んでいるのが、3Dアクションゲームのデバッグに利用可能な自動プレイAIの開発です。既存のゲームを学習させる研究環境と異なり、ゲーム開発の現場ではプログラムのコードが頻繁に変更されます。ビルドし直すたびに人間の手でデバッグする作業は、ゲームの開発規模が大きくなるほど膨大な時間と手間を要します。

また、自動プレイAIをルールベースで作成した場合、仕様変更のたびにAIも作り直さなければなりません。もしAIが開発途中のゲームを学習して、仕様変更を検知しながらテストプレイとバグ報告を代行してくれたなら、作業効率や開発コストは大幅に改善されるでしょう（今回発表される研究では、テストプレイに絞って挑んでいます）。

この課題に、竹内氏は人間のプレイデモを使った模倣学習、本間氏は人間の作業が介入しない階層型強化学習と、それぞれ異なるアプローチで挑んでいます。竹内氏によると、学術ベースの検証ではAIにゼロから学ばせる手法が大きなテーマとして扱われることが多いが、実際のゲーム開発での実用化を目指すにはまだハードルが高いため、まず人間のゲームプレイを模倣する方法に着目したといいます。

模倣学習を使ったアプローチは、広大な3D空間における適切な攻略手順を短時間で学習させられるほか、人間のプレイを再現することでAIの挙動をある程度コントロールできるという利点があります。一方で、ゲーム内容が大幅に変更されるとプレイデモを作り直さなければならないことに加えて、変更の頻度によってはデモデータの作成自体が困難になります。

そこで登場するのが、デモプレイを一切使用しない階層型強化学習によるアプローチです。本間氏の研究では、ナビゲーション移動や攻撃モジュールといったドメイン固有機能を導入することで、AIが完全にランダムな行動を繰り返すのではなく、実際のゲーム攻略に効果的なアクションだけを試行するように学習プロセスを設計しています。

AIの学習時間や挙動はドメイン固有の機能や報酬の設計に大きく依存しますが、人間による作業を挟まないため、継続的インテグレーションと連携することで完全な自動デバッグの実現が期待できるということです。そのための課題は山積していますが、「学術と産業の橋渡しになるような発表にしたい」と、本間氏は語ります。

格闘ゲームの最強AIが手加減しながら遊んでくれたら

これまで対戦ゲームの強化学習で脚光を浴びたAI研究のほとんどは、ひたすら人間に勝る強さのみを追求してきました。その範疇は囲碁や将棋といった完全情報ゲームにとどまらず、ポーカー、麻雀、リアルタイムストラテジーゲーム「StarCraft II」、マルチプレイヤーオンラインバトルアリーナ「Dota 2」といった不完全情報ゲームにおいても、着実な成果を残しています。

しかし、人間を完全に凌駕したAIは学術的なゲームチェンジャーになり得ても、エンターテインメント産業において人間の良き遊び相手になり得ることはありません。絶対に勝てないと立証されたゲームを楽しめる人間は少ないからです。

このセッションでは、格闘ゲームを強化学習させたAIを使って人間プレイヤーを楽しませる接待プレイの可能性も検証されます。モリカトロンは2019年のCEDECにて、多様なボードゲームを学習させた汎用型ゲームAIを発表し、二人完全情報確定ゲームの「どうぶつしょうぎ」と「ゴブレット・ゴブラーズ」を使ったデモ対戦でプロ棋士を相手に勝利を収めています。その経験を踏まえた上で、「ただ強いだけではなくて、一緒に遊んで楽しいと感じてもらえるAIの研究へ一歩踏み出したい」と、岡島氏は語ります。

ここでの接待プレイできるAIは、オンライン対戦で世界の強豪と競い合うようにできるようになるまでの初心者から中級者までをターゲットにしています。単調にならないように白熱した試合を演出しつつ、プレイヤーがあからさまに手加減されていると感じることなく勝てる対戦相手になることで、初心者の離脱を防ぐのです。

手加減とは強者の特権です。接待プレイを実現するためには、まず格闘ゲームで人間に負けない強いAIを育てる必要があります。そもそも弱すぎて相手にならなければ、人間を楽しませることは到底できません。つまり、この研究の鍵を握るのは、手加減という行為をAIにどう定義させるかという部分です。

まず、強化学習で格闘ゲームに強いAIを作るという準備段階では、自己対戦における報酬設計を変えることで多様な戦い方を学ばせるという手法を用いています。さらに、それら異なるスタイルを状況にあわせて使い分けられるように学習させることで、残り時間が少なければ早期決着を狙うために攻撃的な戦い方になり、相手に攻撃が当たらなければカウンター重視の戦い方になるといった、臨機応変なAIができあがるというわけです。

この猛者が手加減する方法は、大きく分けて二通りあります。一方は、残り時間や攻撃の成否に基づいたAIの挙動を、わざと最適化させないことで弱体化を図るという考え方。もう一方は、臨機応変な判断の部分における精度を下げることで、大局的な戦略をわざと崩すという考え方です。

岡島氏と馬淵氏は、前者の部分を兵士に例えて下位方策、後者を軍師に例えて上位方策と表現しています。こうすることで手加減時の不自然さを抑制できるだけでなく、AIに特定の弱点を持たせるといったカスタマイズも可能になるのだといいます。

下位方策のすげ替えをし、AIの挙動を意図的に最適化しないことで手加減するアプローチ（※制作途中の画像です）

WANNと呼ばれる強化学習アルゴリズムで上位方策を制御し、大局的な判断ミスを促す形で手加減するアプローチ（※制作途中の画像です）

もっと身近なところでAI技術と共存するために

こうした研究の背景には、他の業界より少し遅れて到来したゲーム業界におけるAIブームがあります。ゲームの外側におけるAI利用については、昨年のCEDECでも多くの企業が研究成果を発表しました。

馬淵氏によると、これまでエンジニアによるAI技術の活用例は数あれど、プランナーによるAI技術の活用例はほとんど聞いたことがないといいます。もし手加減できるAIが実用化できれば、これまでAI技術の導入に関心が薄かったコンテンツクリエイターにも訴求できるのではないか。彼らの研究には、そんな期待が込められています。

Writer：河合律子