モリカトロン株式会社運営「エンターテインメント×AI」の最新情報をお届けするサイトです。

TAG LIST
ディープラーニングCG機械学習CGへの扉安藤幸央GAN月刊エンタメAIニュースニューラルネットワーク強化学習三宅陽一郎音楽OpenAIモリカトロンAIラボインタビュー敵対的生成ネットワーク河合律子QAスクウェア・エニックスNVIDIAシナリオFacebookキャラクターAIルールベースDeepMindデバッグCEDEC2019プロシージャル人工知能学会映画ビヘイビア・ツリーGoogleCEDEC2021CEDEC2020ゲームAISIGGRAPH遺伝的アルゴリズム不完全情報ゲームメタAIナビゲーションAI森川幸人畳み込みニューラルネットワーク自然言語処理深層学習マイクロソフトAIと倫理グーグルStyleGAN自動生成GDC 2021GPT-3GDC 2019マルチエージェントVRボードゲームロボットアートCNNVFXモリカトロンゲームプレイAIファッションHTN階層型タスクネットワークディープフェイクJSAI2020大内孝子TensorFlowMicrosoftイベントレポートテストプレイAIアート水野勇太アニメーションガイスターNPCDALL-ECLIPStyleGAN2NFTtoio吉本幸記JSAI2021スポーツシムピープル汎用人工知能GDC SummerAdobeeスポーツ対話型エージェントeSportsBLUE PROTOCOLシーマン小説UbisoftAlphaZeroカメラ環世界中島秀之懐ゲーから辿るゲームAI技術史研究DARPAドローンシムシティAI美空ひばり手塚治虫Electronic Artsメタデータブロックチェーン通しプレイOpenAI Five本間翔太CM倫理ピクサーイーサリアム作曲中嶋謙互Amadeus CodeMicrosoft AzureデジタルツインアストロノーカキャリアナラティブAmazonサイバーエージェント音声認識ロボティクスPyTorchDQN眞鍋和子バンダイナムコスタジオUnity齊藤陽介マインクラフトお知らせアバターサルでもわかる人工知能VAEUbisoft La ForgeワークショップGenvid Technologies知識表現ウォッチドッグス レギオンIGDAどうぶつしょうぎジェイ・コウガミ音楽ストリーミングマシンラーニングクラウド斎藤由多加リトル・コンピュータ・ピープルコンピューティショナル・フォトグラフィーGPT-2完全情報ゲーム坂本洋典釜屋憲彦ウェイポイントパス検索藤澤仁生物学画像認識DeNA長谷洋平鴫原盛之masumi toyota宮路洋一TextWorldSIGGRAPH ASIAソニーGTC2021CycleGANフェイクニュースエージェントGPUALifeZork人工生命オルタナティヴ・マシンサウンドスケープMCS-AI動的連携モデルASBSマンガぱいどんTEZUKA2020ナビゲーションメッシュ松井俊浩スパーシャルAIマーケティングApex LegendsELIZANinjaコンピュータRPGアップルタウン物語KELDICメロディ言語ゲームTENTUPLAYLEFT 4 DEADMARVEL Future FightAstroタイムラプスEgo4Dバスキアバーチャルヒューマン日経イノベーション・ラボ敵対的強化学習階層型強化学習GOSU Data LabWANNGOSU Voice Assistant竹内将SenpAI.GGMobalytics馬淵浩希Cygames岡島学AWS Sagemaker映像セリア・ホデント形態素解析UXAWS Lambda誤字検出認知科学BERTゲームデザインSentencePieceLUMINOUS ENGINEプラチナエッグLuminous Productionsパターン・ランゲージ竹村也哉ちょまどボエダ・ゴティエビッグデータGOAPAdobe MAX 2021メタバース模倣学習NVIDIA OmniverseOmniverse AvatarFPSNVIDIA Rivaマルコフ決定過程NVIDIA MegatronNVIDIA Merlinスタンフォード大学NVIDIA Metropolisパラメータ設計テニスOmniverse Replicatorバランス調整レコメンドシステムNVIDIA DRIVE Sim協調フィルタリングNVIDIA Isaac Sim人狼知能テキサス大学軍事AlphaDogfight TrialsAI Messenger VoicebotエージェントシミュレーションOpenAI CodexStarCraft IIHyperStyleFuture of Life InstituteRendering with StyleIntelDisneyLAIKADisneyリサーチRotomationGauGANGauGAN2ドラゴンクエストライバルズ画像言語表現モデル不確定ゲームSIGGRAPH ASIA 2021Dota 2モンテカルロ木探索ディズニーリサーチMitsuba2ソーシャルゲームEmbeddingワイツマン科学研究所GTC2020CG衣装NVIDIA MAXINEVRファッション淡路滋ビデオ会議グリムノーツゴティエ・ボエダGautier Boeda階層的クラスタリングaiboJuliusSIETPRGバーチャル・ヒューマン・エージェントtoio SDK for Unityクーガー田中章愛石井敦銭起揚茂谷保伯MinecraftGDMC成沢理恵MITメディアラボ著作権マジック・リープMagic Leap OneMagendaノンファンジブルトークンDDSPサッカー里井大輝KaggleバスケットボールAssassin’s Creed OriginsSea of ThievesGEMS COMPANYmonoAI technology初音ミクOculus転移学習テストBaldur's Gate 3Candy Crush SagaSIGGRAPH ASIA 2020デバッギングBigGANMaterialGANリップシンキングRNNReBeL自動運転車VolvoRival Prakユービーアイソフト北尾まどかHALO将棋メタルギアソリッドVFSMナップサック問題汎用言語モデルSpotifyMITReplica StudioamuseChitrakar巡回セールスマン問題ジョルダン曲線5GMuZeroクラウドゲーミングRival Peak和田洋一リアリティ番組Stadiaジョンソン裕子MILEs対話エンジンインタラクティブ・ストリーミングインタラクティブ・メディアシーマン人工知能研究所Ludoゴブレット・ゴブラーズTransformerSIGGRAPH 2019ArtEmis絵画ARGROVERFAIRAIりんなチート検出オンラインカジノアップルRealFlowiPhoneシミュレーションDeep FluidsMeInGameAIGraphブレイン・コンピュータ・インタフェースBCILearning from Video予期知能ユクスキュルカント哲学ドラゴンクエストエージェントアーキテクチャPAIROCTOPATH TRAVELER西木康智OCTOPATH TRAVELER 大陸の覇者アルスエレクトロニカ2019StyleCLIPStyleRig逆転オセロニア奥村エルネスト純いただきストリート齋藤精一大森田不可止高橋智隆ロボユニザナック泉幸典仁井谷正充ロボコレ2019ぎゅわんぶらあ自己中心派Azure Machine Learning意思決定モデル脱出ゲームHybrid Reward ArchitectureウロチョロスSuper Phoenix理化学研究所Project Malmo教育Project PaidiaProject LookoutWatch ForBingLEFT ALIVE長谷川誠ジミ・ヘンドリックスBaby Xカート・コバーンロバート・ダウニー・Jr.エイミー・ワインハウスMagentaYouTubeダフト・パンクSFGlenn MarshallThe Age of A.I.Story2HallucinationレコメンデーションJukeboxテンセントSIFTDCGANMOBADANNCE人事ハーバード大学研修デューク大学mynet.aiローグライクゲームNetHack人工音声NeurIPS 2021はこだて未来大学プレイ動画ヒップホップサイレント映画NBA環境音現代アート粒子群最適化法進化差分法群知能下川大樹ウィル・ライト高津芳希大石真史BEiTレベルデザインDETRSporeAIボイスアクターデノイズ南カリフォルニア大学画像処理NVIDIA CanvasSentropyCPUDiscordCALMプログラミングソースコード生成GMAIシチズンデベロッパーTRPGGitHubウィザードリィMCN-AI連携モデルAI Dungeon西川善司並木幸介サムライスピリッツ森寅嘉ゼビウスSIGGRAPH 2021ストリートファイター半導体Topaz Video Enhance AI栗原聡DLSS山野辺一記NetEase大里飛鳥DynamixyzモーションキャプチャーU-Net13フェイズ構造アドベンチャーゲームADVXLandAGI手塚眞DEATH STRANDING不気味の谷Eric JohnsonOculus Questコジマプロダクション生体情報デシマエンジンインディーゲーム写真高橋ミレイ照明Maxim PeterJoshua Romoffハイパースケープ山崎陽斗深層強化学習立木創太バンダイナムコ研究所ミライ小町テスラGameGANELYZAパックマンTesla BotTesla AI Dayソサエティ5.0ELYZA DIGESTSIGGRAPH 2020バズグラフニュースタンテキ東芝DIB-R倉田宜典3D音声合成韻律射影広告韻律転移

多様な架空人間プレイヤーをパートナーにして学習するDeepMindの「架空協力プレイAI」とは?

2021.12.23先端技術

多様な架空人間プレイヤーをパートナーにして学習するDeepMindの「架空協力プレイAI」とは?

DeepMindが開発した囲碁プレイAI「AlphaGo」に代表されるように、現在ではさまざまなゲームでトップレベルの人間プレイヤーを凌駕するゲームプレイAIが開発されています。その一方で、人間とうまく協力してゲームをプレイする協力プレイAIの研究はまだ発展途上です。本稿では、DeepMindが発表した論文を要約することで協力プレイAI研究の最前線を紹介します。

凌駕するより協力する方が難しい

協力プレイAI研究は、人間と協働するAIを開発し普及させるうえで不可欠な知見をもたらすと考えられます。この研究分野で最近わかったことは、単にゲームスキル(つまりタスク遂行能力)が高いだけでは人間にとって好ましい協力プレイAIにはならない、ということです(以下に示す参考記事も参照)。こうしたなかDeepMindは10月15日、協力プレイAIを開発する新手法を論じた論文を発表しました。

NeurlPS 2021に採択された以上のDeepMindの論文では、既知のアルゴリズムが採用された協力プレイAIと同社が考案したアルゴリズムが採用されたそれにパズルゲーム『オーバークック』をプレイさせる比較実験の顛末が書かれています。『オーバークック』とは、さまざまなレイアウトの厨房をステージとして、食材を運んでから調理して料理を提供するまでの一連のアクションをパズルゲームに落とし込んだものです。

比較実験にあたり、DeepMindは以下のような既知の協力プレイAIを用意しました。

  1. セルフプレイ(Self Play:以下「SP」と略記):自分自身をパートナーにして協力プレイを学習したAI。ヒューマンライクなゲームプレイを習得しないため、人間との協力プレイを苦手とする。
  2. 集団プレイ(Population Play:以下「PP」と略記):さまざまなパラメーターをもった複数のゲームプレイAIをパートナーにして協力プレイを学習したAI。人間との基本的な協力プレイが可能だが、多様なプレイスタイルには対応できない。
  3. 行動模倣プレイ(Behavioral Cloning Play:以下「BCP」と略記):人間のプレイヤーから収集した大量のプレイデータから学習したAI。人間との協力プレイに優れるが、学習データを用意するのに多大な労力が必要とされる。

参考記事:強化学習AIは人間に嫌われる?カードゲーム「花火」からわかった強化学習の弱点

参考論文:人間からのデータなしで人間とコラボレーションする

多様な架空プレイヤーを学習パートナーにする

以上のような既知の協力プレイAIがあるなか、DeepMindが目指したのは人間との協力プレイに優れているうえに、人間から収集したプレイデータが不要なAIでした。この目標を達成すべく考案されたのが、架空協力プレイ(Fictitious Co-Play:以下「FCP」と略記)でした。

FCPを簡単に説明すれば、PPの発展形です。さまざまなパラメーターをもったゲームプレイAIを学習パートナーにする点において、FCPとPPは共通しています。FCPとPPの違いは、前者は学習が途中のゲームプレイAIもパートナーにする点です。協力プレイを充分に習得していないAIもパートナーにするのは、さまざまなプレイスキルの人間プレイヤーと協力プレイできるようにするためです。また、学習パートナーはPPと同様にAIのみから構成されているため、BCPのように人間のプレイデータを収集する必要がありません。こうしたFCPは、言わばさまざまなプレイスタイルとプレイスキルの架空の人間プレイヤーをパートナーにした学習方法と言えます。

以下に引用する画像は、DeepMind発表の論文に掲載された前述の4種類の協力プレイAIの違いを図式化したものです。実線の矢印はAIがAIを学習パートナーとする関係を表し、破線の矢印はAIが人間のプレイデータから学習することを意味します。FCPを表す図に人間が関与する破線がないことがわかります。

比較実験の実施にあたっては114人の年齢の異なる男女が集められ、被験者に各AIと『オーバークック』の協力プレイをしてもらいました。実験のプロセスは、以下のようなものでした。

  • 被験者には、ランダムに選ばれた厨房ステージで協力プレイAIを変えながら20回プレイしてもらう。
  • ステージは2プレイごとに変わり、被験者は同じステージを異なった協力プレイAIとプレイする。
  • 2プレイごとに「どちらの協力プレイAIを好むか」という質問に答えてもらう。つまり、同じステージという条件下で協力プレイAIの選好を確認する。
  • 4種類の協力プレイAIのほかに、学習途中のゲームプレイAIをパートナーから除外したFCPも比較実験対象に加えた(このAIは、便宜上「FCP-T」と略記)。

以上のような実験を実施した結果は、以下のような画像にまとめられます。

画像中の「Deliveries(提供数)」はゲームで提供できた料理数を意味しており、提供数が多いほどハイレベルな協力プレイができたと言えます。画像左側は協力プレイAIごとの提供数を比較した棒グラフであり、FCPがもっとも優れていることがわかります。中央の棒グラフは、FCPとFCP-Tの提供数を比較したものです。このグラフから、学習途中のAIを学習パートナーに加えると協力プレイスキルが上がるのがわかります。

画像右側が、協力プレイAIの選好を尋ねた結果を集計したグラフです。同グラフにおいて例えば画像最上行のFCPと2列目のBCPが交わる「0.35」は、同じステージでプレイしたFCPとBCPについて選好を尋ねた結果を集計したら、FCPを好んだことを意味する選好指数が0.35であったことを表しています(選考指数が高いほど好まれる)。このグラフから、FCPの選考指数がほかのAIに比べて高いことがわかります。

実験の結果、FCPが協力プレイに優れており、なおかつ人間から好かれる傾向にあると結論づけられます。

新たな課題も明らかに

DeepMindの論文は、以上の実験結果をうけてFCPをさらに発展させるために解決すべき課題として以下の3項目を挙げています。

  • 複雑なゲームの学習:実験に使った『オーバークック』よりルールが複雑で協力戦略も多様なゲームをプレイする場合には、学習パートナーとなるAIを大量に用意しなければならない。
  • 報酬の定義:協力プレイAIが学習する過程において、「好ましい協力プレイ」がより選択されるように報酬を設定しなければならない。複雑なゲームにおいては、AIが報酬と認識するものと人間プレイヤーが認識するそれに齟齬が生じる可能性がある。こうした齟齬が生じてしまうと、人間とAIの協力プレイがうまく成立しなくなる。
  • 価値観の一致:そもそも協力プレイAIが選択する行動が、人間プレイヤーの価値観に沿うものでなければ協力プレイは成立しない。ゆえに協力プレイAI開発には、プレイスキルの向上と同時にヒューマンライクな価値観や倫理を実装しなければならない。

以上の課題を解決するには、さらなる研究が不可欠でしょう。とくに「報酬の定義」や「価値観の一致」に関しては、人間どうしの協力においても重要となる課題です。それゆえ、協力プレイAIを進化させるには、人間どうしの協力関係を考察して得られる知見が役立つかも知れません。

Writer:吉本幸記

RELATED ARTICLE関連記事

人面魚からAIに進化したシーマン、ロボット搭載の対話エンジンに。その仕組みとは?

2019.8.09先端技術

人面魚からAIに進化したシーマン、ロボット搭載の対話エンジンに。その仕組みとは?

RPG内で目的を持って自律的に行動するNPCのAI:月刊エンタメAIニュース vol.11

2020.11.20先端技術

RPG内で目的を持って自律的に行動するNPCのAI:月刊エンタメAIニュース v...

ロボットトイ「toio」に命を吹き込む「ウロチョロス」が築くAIネイティブの礎

2019.11.26先端技術

ロボットトイ「toio」に命を吹き込む「ウロチョロス」が築くAIネイティブの礎

RANKING注目の記事はこちら