モリカトロン株式会社運営「エンターテインメント×AI」の最新情報をお届けするサイトです。

TAG LIST
CG機械学習ディープラーニングCGへの扉安藤幸央GAN月刊エンタメAIニュース河合律子ニューラルネットワークOpenAINVIDIA強化学習三宅陽一郎音楽FacebookQAスクウェア・エニックス森川幸人モリカトロンAIラボインタビュー敵対的生成ネットワークDeepMindルールベースキャラクターAIシナリオGPT-3自然言語処理NFTGoogleグーグル自動生成映画デバッグCEDEC2019吉本幸記StyleGANプロシージャル人工知能学会遺伝的アルゴリズムメタAI深層学習マイクロソフトアートビヘイビア・ツリーCEDEC2021大内孝子CEDEC2020ゲームAISIGGRAPH不完全情報ゲームゲームプレイAIVRナビゲーションAI畳み込みニューラルネットワークDALL-ECLIPロボットAIと倫理ディープフェイクGDC 2021VFXメタバースGDC 2019マルチエージェントボードゲームNPCCNNデジタルツインモリカトロンUnityAIアートファッションHTN階層型タスクネットワークDALL-E2JSAI2020TensorFlowMicrosoftイベントレポートテストプレイ水野勇太小説アニメーションガイスターStyleGAN2懐ゲーから辿るゲームAI技術史toioソニーJSAI2021スポーツ研究シムピープル汎用人工知能GDC Summerバーチャルヒューマンブロックチェーン倫理BERTAdobeアストロノーカNVIDIA Omniverseeスポーツ対話型エージェントAmazoneSportsBLUE PROTOCOLシーマンUbisoft画像生成テキスト画像生成AlphaZeroTransformerGPT-2カメラ環世界中島秀之鴫原盛之DARPAドローンシムシティAI美空ひばり手塚治虫Electronic ArtsメタデータLEFT 4 DEADインタビュー通しプレイOpenAI Five本間翔太CMピクサープラチナエッグイーサリアム作曲ビッグデータ中嶋謙互Amadeus CodeMicrosoft AzureキャリアナラティブOmniverse ReplicatorレコメンドシステムNVIDIA DRIVE SimNVIDIA Isaac Simサイバーエージェント音声認識ロボティクスPyTorchDQN眞鍋和子バンダイナムコスタジオaibo合成音声Minecraft齊藤陽介マインクラフトお知らせチャットボットアバターサルでもわかる人工知能VAEOmniverseUbisoft La Forge自動運転車ワークショップGenvid Technologiesメタ知識表現ウォッチドッグス レギオンIGDAどうぶつしょうぎEpic Gamesジェイ・コウガミ音楽ストリーミング徳井直生マシンラーニングクラウド対話エンジン斎藤由多加リトル・コンピュータ・ピープルコンピューティショナル・フォトグラフィーゴブレット・ゴブラーズ絵画AIりんなシミュレーション完全情報ゲーム坂本洋典釜屋憲彦ウェイポイントパス検索対談藤澤仁生物学GTC 2022画像認識GTC2022StyleCLIPDeNA長谷洋平masumi toyota宮路洋一OpenSeaGDC 2022教育TextWorldSIGGRAPH ASIAGTC2021CycleGANNetHackフェイクニュースエージェントAIボイスアクターNVIDIA CanvasImagenGPUALifeZork人工生命オルタナティヴ・マシンサウンドスケープMCS-AI動的連携モデルASBSマンガモーションキャプチャーぱいどんTEZUKA2020ナビゲーションメッシュ松井俊浩バンダイナムコ研究所スパーシャルAIELYZAELYZA DIGEST3D音声合成マーケティングApex LegendsELIZANinjaコンピュータRPGアップルタウン物語KELDICメロディ言語ゲームTENTUPLAYMARVEL Future FightAstroタイムラプスEgo4Dバスキア日経イノベーション・ラボ敵対的強化学習階層型強化学習GOSU Data LabWANNGOSU Voice Assistant竹内将SenpAI.GGMobalytics馬淵浩希Cygames岡島学AWS Sagemaker映像セリア・ホデント形態素解析UXAWS Lambda誤字検出認知科学ゲームデザインSentencePieceLUMINOUS ENGINELuminous Productionsパターン・ランゲージ竹村也哉ちょまどボエダ・ゴティエGOAPAdobe MAX 2021模倣学習Omniverse AvatarFPSNVIDIA Rivaマルコフ決定過程NVIDIA MegatronNVIDIA Merlinスタンフォード大学NVIDIA Metropolisパラメータ設計テニスバランス調整協調フィルタリング人狼知能テキサス大学軍事AlphaDogfight TrialsAI Messenger VoicebotエージェントシミュレーションOpenAI CodexStarCraft IIHyperStyleFuture of Life InstituteRendering with StyleIntelDisneyLAIKADisneyリサーチRotomationGauGANGauGAN2ドラゴンクエストライバルズ画像言語表現モデル不確定ゲームSIGGRAPH ASIA 2021Dota 2モンテカルロ木探索ディズニーリサーチMitsuba2ソーシャルゲームEmbeddingワイツマン科学研究所GTC2020CG衣装NVIDIA MAXINEVRファッション淡路滋ビデオ会議ArtflowグリムノーツEponymゴティエ・ボエダ音声クローニングGautier Boeda階層的クラスタリングGopherJuliusSIE鑑定TPRGOxia Palusバーチャル・ヒューマン・エージェントtoio SDK for UnityArt Recognitionクーガー田中章愛Meta石井敦銭起揚NHC 2021茂谷保伯池田利夫GDMC新刊案内マーベル・シネマティック・ユニバース成沢理恵MITメディアラボMCU著作権アベンジャーズマジック・リープDigital DomainMagic Leap OneMagendaMasquerade2.0ノンファンジブルトークンDDSPフェイシャルキャプチャーサッカーモリカトロン開発者インタビュー里井大輝Kaggle宮本茂則バスケットボール山田暉Assassin’s Creed OriginsAI会話ジェネレーターSea of ThievesGEMS COMPANYmonoAI technologyLSTMモリカトロンAIソリューション初音ミクOculusコード生成AI転移学習テストAlphaCodeBaldur's Gate 3CodeforcesCandy Crush Saga自己増強型AISIGGRAPH ASIA 2020COLMAPADOPデバッギングBigGANGANverse3DMaterialGANリップシンキングRNNグランツーリスモSPORTReBeLグランツーリスモ・ソフィーGTソフィーVolvoFIAグランツーリスモチャンピオンシップRival PrakDGX A100VTuberユービーアイソフトWebcam VTuber星新一賞北尾まどかHALO市場分析将棋メタルギアソリッドVフォートナイトFSMRobloxナップサック問題Live Nation汎用言語モデルWeb3.0AIOpsSpotifyMITスマートコントラクトReplica StudioAWSamuseChitrakarQosmo巡回セールスマン問題ジョルダン曲線メディア5GMuZero政治クラウドゲーミングRival Peakがんばれ森川君2号和田洋一リアリティ番組Stadiaジョンソン裕子MILEsNightCafeインタラクティブ・ストリーミングLuis Ruizインタラクティブ・メディアポケモンCodexシーマン人工知能研究所東京工業大学Ludo博報堂ラップSIGGRAPH 2019ArtEmisZ世代AIラッパーシステムARrinnaGROVERプラスリンクス ~キミと繋がる想い~FAIRSTCチート検出Style Transfer ConversationオンラインカジノRCPアップルRealFlowRinna Character PlatformiPhoneデジタルヒューマンDeep FluidsSoul MachinesMeInGameAmeliaAIGraphブレイン・コンピュータ・インタフェースバーチャルキャラクターBCIGateboxLearning from VideoANIMAK予期知能逢妻ヒカリセコムユクスキュルバーチャル警備システムカント損保ジャパン哲学上原利之ドラゴンクエストエージェントアーキテクチャアッパーグラウンドPAIROCTOPATH TRAVELER西木康智OCTOPATH TRAVELER 大陸の覇者Siemensアルスエレクトロニカ2019品質保証StyleRigAutodesk逆転オセロニアBentley Systemsワールドシミュレーター奥村エルネスト純いただきストリートH100齋藤精一大森田不可止COBOL高橋智隆DGX H100ロボユニザナックDGX SuperPOD泉幸典仁井谷正充クラウドコンピューティングロボコレ2019Instant NeRFartonomousbitGANsぎゅわんぶらあ自己中心派Azure Machine Learning意思決定モデル脱出ゲームHybrid Reward Architectureコミュニティ管理ウロチョロスSuper PhoenixSNS理化学研究所Project Malmoオンラインゲーム気候変動Project PaidiaEarth-2Project Lookoutマックス・プランク気象研究所Watch Forビョルン・スティーブンスBing気象モデルLEFT ALIVE気象シミュレーション長谷川誠ジミ・ヘンドリックス環境問題Baby Xカート・コバーンエコロジーロバート・ダウニー・Jr.エイミー・ワインハウスSDGsMagentaYouTubeダフト・パンクメモリスタSFGlenn MarshallELYZA PencilThe Age of A.I.Story2Hallucination音声変換レコメンデーションJukebox松尾豊Veap JapanEAPテンセントSIFT福井千春DCGAN医療MOBADANNCEメンタルケア人事ハーバード大学Edgar Handy研修デューク大学Netflixデータマイニングmynet.aiローグライクゲーム東京大学東京理科大学人工音声NeurIPS 2021産業技術総合研究所はこだて未来大学リザバーコンピューティングプレイ動画ヒップホップキャラクターモーションソニーマーケティングサイレント映画もじぱNBA環境音暗号通貨現代アートFUZZLEAlteration粒子群最適化法RPG進化差分法オープンワールド群知能下川大樹AIFAウィル・ライト高津芳希P2E大石真史SIGGRAPH 2022BEiTStyleGAN-NADAレベルデザインDETRゲームエンジンSporeUnreal Engineデノイズ南カリフォルニア大学Unity for Industry画像処理SentropyGLIDECPUDiscordAvatarCLIPSynthetic DataCALMバイアスプログラミングサム・アルトマンソースコード生成LaMDAGMAIシチズンデベロッパーSonanticTRPGGitHubCohereウィザードリィMCN-AI連携モデルマジック:ザ・ギャザリングAI DungeonUrzas.ai介護西川善司並木幸介Kikiサムライスピリッツ森寅嘉Zoetic AIゼビウスSIGGRAPH 2021ペットストリートファイター半導体Digital Dream LabsTopaz Video Enhance AICozmo栗原聡DLSSタカラトミー山野辺一記NetEaseLOVOT大里飛鳥DynamixyzMOFLINRomiU-Netミクシィ13フェイズ構造アドベンチャーゲームユニロボットADVユニボXLandGatoAGIテキスト生成手塚眞DEATH STRANDINGマルチモーダル不気味の谷Eric Johnson汎用強化学習AIOculus Questコジマプロダクション生体情報デシマエンジンインディーゲーム写真高橋ミレイ照明Maxim PeterJoshua Romoffハイパースケープ山崎陽斗深層強化学習立木創太ミライ小町テスラGameGANパックマンTesla BotTesla AI Dayソサエティ5.0SIGGRAPH 2020バズグラフニュースタンテキ東芝DIB-R倉田宜典韻律射影広告韻律転移

多様な架空人間プレイヤーをパートナーにして学習するDeepMindの「架空協力プレイAI」とは?

2021.12.23先端技術

多様な架空人間プレイヤーをパートナーにして学習するDeepMindの「架空協力プレイAI」とは?

DeepMindが開発した囲碁プレイAI「AlphaGo」に代表されるように、現在ではさまざまなゲームでトップレベルの人間プレイヤーを凌駕するゲームプレイAIが開発されています。その一方で、人間とうまく協力してゲームをプレイする協力プレイAIの研究はまだ発展途上です。本稿では、DeepMindが発表した論文を要約することで協力プレイAI研究の最前線を紹介します。

凌駕するより協力する方が難しい

協力プレイAI研究は、人間と協働するAIを開発し普及させるうえで不可欠な知見をもたらすと考えられます。この研究分野で最近わかったことは、単にゲームスキル(つまりタスク遂行能力)が高いだけでは人間にとって好ましい協力プレイAIにはならない、ということです(以下に示す参考記事も参照)。こうしたなかDeepMindは10月15日、協力プレイAIを開発する新手法を論じた論文を発表しました。

NeurlPS 2021に採択された以上のDeepMindの論文では、既知のアルゴリズムが採用された協力プレイAIと同社が考案したアルゴリズムが採用されたそれにパズルゲーム『オーバークック』をプレイさせる比較実験の顛末が書かれています。『オーバークック』とは、さまざまなレイアウトの厨房をステージとして、食材を運んでから調理して料理を提供するまでの一連のアクションをパズルゲームに落とし込んだものです。

比較実験にあたり、DeepMindは以下のような既知の協力プレイAIを用意しました。

  1. セルフプレイ(Self Play:以下「SP」と略記):自分自身をパートナーにして協力プレイを学習したAI。ヒューマンライクなゲームプレイを習得しないため、人間との協力プレイを苦手とする。
  2. 集団プレイ(Population Play:以下「PP」と略記):さまざまなパラメーターをもった複数のゲームプレイAIをパートナーにして協力プレイを学習したAI。人間との基本的な協力プレイが可能だが、多様なプレイスタイルには対応できない。
  3. 行動模倣プレイ(Behavioral Cloning Play:以下「BCP」と略記):人間のプレイヤーから収集した大量のプレイデータから学習したAI。人間との協力プレイに優れるが、学習データを用意するのに多大な労力が必要とされる。

参考記事:強化学習AIは人間に嫌われる?カードゲーム「花火」からわかった強化学習の弱点

参考論文:人間からのデータなしで人間とコラボレーションする

多様な架空プレイヤーを学習パートナーにする

以上のような既知の協力プレイAIがあるなか、DeepMindが目指したのは人間との協力プレイに優れているうえに、人間から収集したプレイデータが不要なAIでした。この目標を達成すべく考案されたのが、架空協力プレイ(Fictitious Co-Play:以下「FCP」と略記)でした。

FCPを簡単に説明すれば、PPの発展形です。さまざまなパラメーターをもったゲームプレイAIを学習パートナーにする点において、FCPとPPは共通しています。FCPとPPの違いは、前者は学習が途中のゲームプレイAIもパートナーにする点です。協力プレイを充分に習得していないAIもパートナーにするのは、さまざまなプレイスキルの人間プレイヤーと協力プレイできるようにするためです。また、学習パートナーはPPと同様にAIのみから構成されているため、BCPのように人間のプレイデータを収集する必要がありません。こうしたFCPは、言わばさまざまなプレイスタイルとプレイスキルの架空の人間プレイヤーをパートナーにした学習方法と言えます。

以下に引用する画像は、DeepMind発表の論文に掲載された前述の4種類の協力プレイAIの違いを図式化したものです。実線の矢印はAIがAIを学習パートナーとする関係を表し、破線の矢印はAIが人間のプレイデータから学習することを意味します。FCPを表す図に人間が関与する破線がないことがわかります。

比較実験の実施にあたっては114人の年齢の異なる男女が集められ、被験者に各AIと『オーバークック』の協力プレイをしてもらいました。実験のプロセスは、以下のようなものでした。

  • 被験者には、ランダムに選ばれた厨房ステージで協力プレイAIを変えながら20回プレイしてもらう。
  • ステージは2プレイごとに変わり、被験者は同じステージを異なった協力プレイAIとプレイする。
  • 2プレイごとに「どちらの協力プレイAIを好むか」という質問に答えてもらう。つまり、同じステージという条件下で協力プレイAIの選好を確認する。
  • 4種類の協力プレイAIのほかに、学習途中のゲームプレイAIをパートナーから除外したFCPも比較実験対象に加えた(このAIは、便宜上「FCP-T」と略記)。

以上のような実験を実施した結果は、以下のような画像にまとめられます。

画像中の「Deliveries(提供数)」はゲームで提供できた料理数を意味しており、提供数が多いほどハイレベルな協力プレイができたと言えます。画像左側は協力プレイAIごとの提供数を比較した棒グラフであり、FCPがもっとも優れていることがわかります。中央の棒グラフは、FCPとFCP-Tの提供数を比較したものです。このグラフから、学習途中のAIを学習パートナーに加えると協力プレイスキルが上がるのがわかります。

画像右側が、協力プレイAIの選好を尋ねた結果を集計したグラフです。同グラフにおいて例えば画像最上行のFCPと2列目のBCPが交わる「0.35」は、同じステージでプレイしたFCPとBCPについて選好を尋ねた結果を集計したら、FCPを好んだことを意味する選好指数が0.35であったことを表しています(選考指数が高いほど好まれる)。このグラフから、FCPの選考指数がほかのAIに比べて高いことがわかります。

実験の結果、FCPが協力プレイに優れており、なおかつ人間から好かれる傾向にあると結論づけられます。

新たな課題も明らかに

DeepMindの論文は、以上の実験結果をうけてFCPをさらに発展させるために解決すべき課題として以下の3項目を挙げています。

  • 複雑なゲームの学習:実験に使った『オーバークック』よりルールが複雑で協力戦略も多様なゲームをプレイする場合には、学習パートナーとなるAIを大量に用意しなければならない。
  • 報酬の定義:協力プレイAIが学習する過程において、「好ましい協力プレイ」がより選択されるように報酬を設定しなければならない。複雑なゲームにおいては、AIが報酬と認識するものと人間プレイヤーが認識するそれに齟齬が生じる可能性がある。こうした齟齬が生じてしまうと、人間とAIの協力プレイがうまく成立しなくなる。
  • 価値観の一致:そもそも協力プレイAIが選択する行動が、人間プレイヤーの価値観に沿うものでなければ協力プレイは成立しない。ゆえに協力プレイAI開発には、プレイスキルの向上と同時にヒューマンライクな価値観や倫理を実装しなければならない。

以上の課題を解決するには、さらなる研究が不可欠でしょう。とくに「報酬の定義」や「価値観の一致」に関しては、人間どうしの協力においても重要となる課題です。それゆえ、協力プレイAIを進化させるには、人間どうしの協力関係を考察して得られる知見が役立つかも知れません。

Writer:吉本幸記

RELATED ARTICLE関連記事

AIプログラマーの実現に近づいたDeepMindのAlphaCode。新たなリスクも増大か?

2022.2.17先端技術

AIプログラマーの実現に近づいたDeepMindのAlphaCode。新たなリス...

リスナーの感情に合わせたレコメンドエンジン:月刊エンタメAIニュース vol.4

2020.4.29先端技術

リスナーの感情に合わせたレコメンドエンジン:月刊エンタメAIニュース vol.4

電脳化でコントローラを使わずにゲームプレイするサル:月刊エンタメAIニュース vol.16

2021.4.23先端技術

電脳化でコントローラを使わずにゲームプレイするサル:月刊エンタメAIニュース v...

RANKING注目の記事はこちら