モリカトロン株式会社運営「エンターテインメント×AI」の最新情報をお届けするサイトです。

TAG LIST
CG機械学習ディープラーニングCGへの扉安藤幸央GAN月刊エンタメAIニュースニューラルネットワーク河合律子NVIDIA強化学習三宅陽一郎OpenAI音楽FacebookQAスクウェア・エニックスモリカトロンAIラボインタビュー敵対的生成ネットワーク森川幸人ルールベースDeepMindキャラクターAIシナリオNFTGPT-3デバッグCEDEC2019StyleGANプロシージャル自動生成人工知能学会映画遺伝的アルゴリズムメタAI自然言語処理深層学習マイクロソフトビヘイビア・ツリー吉本幸記GoogleCEDEC2021CEDEC2020ゲームAISIGGRAPH不完全情報ゲームVRナビゲーションAI畳み込みニューラルネットワークAIと倫理アートグーグルディープフェイクGDC 2021大内孝子VFXメタバースGDC 2019マルチエージェントゲームプレイAIボードゲームNPCDALL-ECLIPロボットCNNデジタルツインモリカトロンUnityファッションHTN階層型タスクネットワークJSAI2020TensorFlowMicrosoftイベントレポートテストプレイAIアート水野勇太小説アニメーションガイスターStyleGAN2懐ゲーから辿るゲームAI技術史toioJSAI2021スポーツ研究シムピープル汎用人工知能GDC Summerバーチャルヒューマンブロックチェーン倫理AdobeアストロノーカNVIDIA Omniverseeスポーツ対話型エージェントAmazoneSportsBLUE PROTOCOLシーマンUbisoftAlphaZeroTransformerGPT-2カメラ環世界中島秀之鴫原盛之ソニーDARPAドローンシムシティAI美空ひばり手塚治虫Electronic ArtsメタデータLEFT 4 DEAD通しプレイOpenAI Five本間翔太CMピクサーBERTプラチナエッグイーサリアム作曲ビッグデータ中嶋謙互Amadeus CodeMicrosoft AzureキャリアナラティブOmniverse ReplicatorレコメンドシステムNVIDIA DRIVE SimNVIDIA Isaac Simサイバーエージェント音声認識ロボティクスPyTorchDQN眞鍋和子バンダイナムコスタジオMinecraft齊藤陽介マインクラフトお知らせチャットボットアバターサルでもわかる人工知能VAEOmniverseUbisoft La Forge自動運転車ワークショップGenvid Technologiesメタ知識表現ウォッチドッグス レギオンIGDAどうぶつしょうぎEpic Gamesジェイ・コウガミ音楽ストリーミングマシンラーニング画像生成テキスト画像生成クラウド対話エンジン斎藤由多加リトル・コンピュータ・ピープルコンピューティショナル・フォトグラフィーゴブレット・ゴブラーズ絵画AIりんなシミュレーション完全情報ゲーム坂本洋典釜屋憲彦ウェイポイントパス検索藤澤仁生物学GTC 2022画像認識GTC2022StyleCLIPDeNA長谷洋平masumi toyota宮路洋一OpenSeaGDC 2022教育TextWorldSIGGRAPH ASIADALL-E2GTC2021CycleGANNetHackフェイクニュースエージェントAIボイスアクターNVIDIA CanvasGPUALifeZork人工生命オルタナティヴ・マシンサウンドスケープMCS-AI動的連携モデルASBSマンガモーションキャプチャーぱいどんTEZUKA2020ナビゲーションメッシュ松井俊浩バンダイナムコ研究所スパーシャルAIELYZAELYZA DIGEST3D音声合成マーケティングApex LegendsELIZANinjaコンピュータRPGアップルタウン物語KELDICメロディ言語ゲームTENTUPLAYMARVEL Future FightAstroタイムラプスEgo4Dインタビューバスキア日経イノベーション・ラボ敵対的強化学習階層型強化学習GOSU Data LabWANNGOSU Voice Assistant竹内将SenpAI.GGMobalytics馬淵浩希Cygames岡島学AWS Sagemaker映像セリア・ホデント形態素解析UXAWS Lambda誤字検出認知科学ゲームデザインSentencePieceLUMINOUS ENGINELuminous Productionsパターン・ランゲージ竹村也哉ちょまどボエダ・ゴティエGOAPAdobe MAX 2021模倣学習Omniverse AvatarFPSNVIDIA Rivaマルコフ決定過程NVIDIA MegatronNVIDIA Merlinスタンフォード大学NVIDIA Metropolisパラメータ設計テニスバランス調整協調フィルタリング人狼知能テキサス大学軍事AlphaDogfight TrialsAI Messenger VoicebotエージェントシミュレーションOpenAI CodexStarCraft IIHyperStyleFuture of Life InstituteRendering with StyleIntelDisneyLAIKADisneyリサーチRotomationGauGANGauGAN2ドラゴンクエストライバルズ画像言語表現モデル不確定ゲームSIGGRAPH ASIA 2021Dota 2モンテカルロ木探索ディズニーリサーチMitsuba2ソーシャルゲームEmbeddingワイツマン科学研究所GTC2020CG衣装NVIDIA MAXINEVRファッション淡路滋ビデオ会議ArtflowグリムノーツEponymゴティエ・ボエダ音声クローニングGautier Boeda階層的クラスタリングGopheraibo合成音声JuliusSIE鑑定TPRGOxia Palusバーチャル・ヒューマン・エージェントtoio SDK for UnityArt Recognitionクーガー田中章愛Meta石井敦銭起揚NHC 2021茂谷保伯池田利夫GDMC新刊案内マーベル・シネマティック・ユニバース成沢理恵MITメディアラボMCU著作権アベンジャーズマジック・リープDigital DomainMagic Leap OneMagendaMasquerade2.0ノンファンジブルトークンDDSPフェイシャルキャプチャーサッカーモリカトロン開発者インタビュー里井大輝Kaggle宮本茂則バスケットボール山田暉Assassin’s Creed OriginsAI会話ジェネレーターSea of ThievesGEMS COMPANYmonoAI technologyLSTMモリカトロンAIソリューション初音ミクOculusコード生成AI転移学習テストAlphaCodeBaldur's Gate 3CodeforcesCandy Crush Saga自己増強型AISIGGRAPH ASIA 2020COLMAPADOPデバッギングBigGANGANverse3DMaterialGANリップシンキングRNNグランツーリスモSPORTReBeLグランツーリスモ・ソフィーGTソフィーVolvoFIAグランツーリスモチャンピオンシップRival PrakDGX A100VTuberユービーアイソフトWebcam VTuber星新一賞北尾まどかHALO市場分析将棋メタルギアソリッドVフォートナイトFSMRobloxナップサック問題Live Nation汎用言語モデルWeb3.0AIOpsSpotifyMITスマートコントラクトReplica StudioAWSamuseChitrakarQosmo巡回セールスマン問題徳井直生ジョルダン曲線メディア5GMuZero政治クラウドゲーミングRival Peakがんばれ森川君2号和田洋一リアリティ番組Stadiaジョンソン裕子MILEsNightCafeインタラクティブ・ストリーミングLuis Ruizインタラクティブ・メディアポケモンCodexシーマン人工知能研究所東京工業大学Ludo博報堂ラップSIGGRAPH 2019ArtEmisZ世代AIラッパーシステムARrinnaGROVERプラスリンクス ~キミと繋がる想い~FAIRSTCチート検出Style Transfer ConversationオンラインカジノRCPアップルRealFlowRinna Character PlatformiPhoneデジタルヒューマンDeep FluidsSoul MachinesMeInGameAmeliaAIGraphブレイン・コンピュータ・インタフェースバーチャルキャラクターBCIGateboxLearning from VideoANIMAK予期知能逢妻ヒカリセコムユクスキュルバーチャル警備システムカント損保ジャパン哲学対談上原利之ドラゴンクエストエージェントアーキテクチャアッパーグラウンドPAIROCTOPATH TRAVELER西木康智OCTOPATH TRAVELER 大陸の覇者Siemensアルスエレクトロニカ2019品質保証StyleRigAutodesk逆転オセロニアBentley Systemsワールドシミュレーター奥村エルネスト純いただきストリートH100齋藤精一大森田不可止COBOL高橋智隆DGX H100ロボユニザナックDGX SuperPOD泉幸典仁井谷正充クラウドコンピューティングロボコレ2019Instant NeRFartonomousbitGANsぎゅわんぶらあ自己中心派Azure Machine Learning意思決定モデル脱出ゲームHybrid Reward Architectureコミュニティ管理ウロチョロスSuper PhoenixSNS理化学研究所Project Malmoオンラインゲーム気候変動Project PaidiaEarth-2Project Lookoutマックス・プランク気象研究所Watch Forビョルン・スティーブンスBing気象モデルLEFT ALIVE気象シミュレーション長谷川誠ジミ・ヘンドリックス環境問題Baby Xカート・コバーンエコロジーロバート・ダウニー・Jr.エイミー・ワインハウスSDGsMagentaYouTubeダフト・パンクメモリスタSFGlenn MarshallELYZA PencilThe Age of A.I.Story2Hallucination音声変換レコメンデーションJukebox松尾豊Veap JapanEAPテンセントSIFT福井千春DCGAN医療MOBADANNCEメンタルケア人事ハーバード大学Edgar Handy研修デューク大学Netflixデータマイニングmynet.aiローグライクゲーム東京大学東京理科大学人工音声NeurIPS 2021産業技術総合研究所はこだて未来大学リザバーコンピューティングプレイ動画ヒップホップキャラクターモーションソニーマーケティングサイレント映画もじぱNBA環境音暗号通貨現代アートFUZZLEAlteration粒子群最適化法RPG進化差分法オープンワールド群知能下川大樹AIFAウィル・ライト高津芳希P2E大石真史SIGGRAPH 2022BEiTStyleGAN-NADAレベルデザインDETRゲームエンジンSporeUnreal Engineデノイズ南カリフォルニア大学Unity for Industry画像処理SentropyCPUDiscordCALMプログラミングソースコード生成GMAIシチズンデベロッパーTRPGGitHubウィザードリィMCN-AI連携モデルAI Dungeon西川善司並木幸介サムライスピリッツ森寅嘉ゼビウスSIGGRAPH 2021ストリートファイター半導体Topaz Video Enhance AI栗原聡DLSS山野辺一記NetEase大里飛鳥DynamixyzU-Net13フェイズ構造アドベンチャーゲームADVXLandAGI手塚眞DEATH STRANDING不気味の谷Eric JohnsonOculus Questコジマプロダクション生体情報デシマエンジンインディーゲーム写真高橋ミレイ照明Maxim PeterJoshua Romoffハイパースケープ山崎陽斗深層強化学習立木創太ミライ小町テスラGameGANパックマンTesla BotTesla AI Dayソサエティ5.0SIGGRAPH 2020バズグラフニュースタンテキ東芝DIB-R倉田宜典韻律射影広告韻律転移

【GDCSummer】多様なプレイスタイルを学習し、FPSを人間のようにテストプレイするAIの育て方

2020.9.23ゲーム

【GDCSummer】多様なプレイスタイルを学習し、FPSを人間のようにテストプレイするAIの育て方

ゲーム開発にはテストプレイとバランス調整が欠かせません。近年、多くの企業が人工知能を用いたテストプレイの自動化を検証していますが、ゲームの複雑さや開発規模が増すにつれてスケーラビリティには限界が生じます。また、特定の行動を重視したゲームプレイをAIにテストさせるのは、決して容易ではありません。製品の品質管理をAIが担うためには、ゲーム内で人間のように振る舞えるエージェントが必要不可欠なのです。

8月4日から8月6日までオンライン開催されたGDC Summerにて、Electronic ArtsのAI研究者Igor Borovikov氏による、「Imitation Learning: Building Practical Agents to Test and Explore a First-Person Shooter」(模倣学習:FPSのテストプレイに役立つエージェントの構築)というセッションを取材しました。

このセッションでは、開発途中のFPSタイトルをAIにテストプレイさせることを想定して、攻撃重視やステルス重視といったプレイスタイルの導入を、強化学習と模倣学習による手法で技術検証しています。

強化学習と模倣学習を組み合わせたアプローチ

ビデオゲームにおけるキャラクターの意思決定は、強化学習におけるマルコフ決定過程で定式化できます。マルコフ決定過程は、状態遷移が確率的に生じる動的システムにおける確率モデルであり、遷移後の状態と報酬は直前の状態と行動のみに依存します。すなわち、エージェントが行動を選択するたびに環境は確率的に状態遷移し、その都度エージェントは環境から確率的に報酬を得ます。これらの確率を決定するのが、マルコフ決定過程です。

しかし、強化学習だけでは人間のように振る舞う自動プレイエージェントは実現できません。ゲーム開発の現場では、高速で反復できる処理能力が求められます。ビルドが変わるたびに数日から数週間を学習に費やしていては使い物になりません。また、学習の計算コストにも現実的な数字が求められます。何よりも、強化学習にプレイスタイルという制約を組み込むには、かなり繊細な報酬設計が必要になるため一筋縄では行きません。

一方で、模倣学習にもいくつかの課題があります。まず、仕様変更のたびにデモンストレーションを作り直さなければならないため、どうしてもリソースコストが大幅に増加してしまいます。また、ゲームプレイにおけるすべての性質をカバーできるとは限りません。くわえて、人間のデモンストレーションを模倣したエージェントに人間より優れたパフォーマンスを期待することはできません。

そこで今回の検証では、後述するマルコフアンサンブルによりデモンストレーションからベースモデルを構築し、観測不可能な状態における未定義の行動はヒューリスティクスを介して指定。マルコフアンサンブルとヒューリスティクスの統合モデルを使ってエージェントにゲームプレイを学習させるというアプローチが取られています。これをディープニューラルネットワークやビヘイビア・ツリーを用いて最適化することで実用化を目指します。

多様なプレイスタイルをいかに学習させるか

一般的なFPSタイトルでは、「前方に走る」「伏せる」「身を隠す」のような一連の行動が、キャラクターの状態やプレイスタイルに応じた確率で、「回復アイテムを使う」「武器を変える」「休む」といった異なる次の行動につながります。この時、それぞれの確率を決定して、次の行動を予想するためにマルコフモデルが使われます。

マルコフモデルは単一の行動に対しては効果的ですが、現実には多様な状態に対応しなければならず、そのすべてが観測できるとは限りません。また、デモンストレーションではカバーしきれていない行動もあるかもしれません。こうした課題を解決するために、検証ではスタイルを決定するNグラム、記録された状態の量子化、デモンストレーションの順序という3次元のアンサンブルモデルを構築しています。

デモンストレーションとなるエピソードは、記録されたNグラムの状態と行動の連続で構成されています。それぞれのマルコフモデルが各状態における遷移確率を定義します。ここでは、マルコフモデルのNグラムが高順位になるほど、特定のプレイスタイルをより忠実に実行できることを示しています。たとえば、「スコープを覗く」「撃つ」「伏せる」「グレネードを投げる」「位置を変える」といった一連の動作を正確に実行できるわけです。

前述した量子化とは、連続的な変数を離散化することを指します。信号処理や画像処理においては、信号の大きさを離散的な値で近似的に表す際に使われます。FPSではキャラクターの速度やターゲットまでの距離が連続的な変数に該当します。そこで距離という連続的な変数を、「遠すぎて何もできない」「スナイパーライフルが使える」「近接武器が使える」といった具合に離散的な値に変換する必要があるのです。なお、どの程度もとの状態に近似しているかは、量子化の閾値によって定義します。

すべての順位と量子化におけるマルコフモデルを組み合わせることで、2次元のマトリクスが形成されます。マトリクスの縦軸はマルコフモデルの順位、横軸は量子化の閾値を示しており、一番左上がもっとも忠実度が高いマルコフモデルとなります。ここにデモンストレーションを時系列順に指定することで、3次元からなるマルコフアンサンブルが構築されます。なお、エージェントの学習途中でプレイヤーに操作権限を移行すれば、デモンストレーションを修正しながらインタラクティブに学習させることも可能だということです。

このセッションでは、流し台の中をスプーンが移動しながら家庭用品と戦うというシンプルなゲームを用いて、マルコフアンサンブルにおけるエージェントの学習が検証されました。スプーンが他の家庭用品に接触すると戦闘状態になり、食べ物に接触すると消費して体力を回復できるという最低限のメカニクスのみが実装されています。それぞれのマルコフモデルは10秒間隔で更新されます。このサンプルはFPSではないものの、マルコフモデルにおけるエージェントの挙動を描写するには十分な役割を果たしています。

人間のような振る舞いをどう定義するか

人間とAIを隔てる大きな溝のひとつに、ゲームジャンルに応じた直感的な知識があります。例えば、人間がアクションゲームをプレイする際、破壊したり飛び越えたりできない壁に延々とぶつかり続けるといった支離滅裂な行動は取りません。このように人間は可視化された情報をもとに直感的な判断を下せるため、人間によるデモンストレーションは不完全だといえます。このデモンストレーションからAIが人間のように目標や報酬を推定することは至難の業です。そこで避けて通れないのが知識工学です。

観測不可能な状態における未定義の行動をヒューリスティクスで指定する例として、残り体力や残弾数をもとにウェイポイントを選択するという手法が挙げられます。例えば、デス数に対するキル数の比率を最大化したい場合、残り体力と残弾数が多い時は敵をウェイポイントに設定し、反対に瀕死状態の時は回復アイテムをウェイポイントに設定することで、エージェントは生存率を維持しつつもアグレッシブな行動を選択するようになります。

このように、マルコフアンサンブルによって定義されたスタイルだけでは通用しない状態においては、知識工学に基づいたヒューリスティクスが非常に役立ちます。これがマルコフアンサンブルとヒューリスティクスの統合モデルです。残された課題は、線形的に増加していく計算コストを最適化する方法です。

これには、マルコフアンサンブルとヒューリスティクスを統合するためのディープニューラルネットワーク(DNN)を構築する手法と、デモンストレーションのデータをビヘイビア・ツリーへ圧縮変換する手法があります。後者はDNNと異なり、人間によって改変できるという利点があります。また、データ構造がもともとツリーの性質を持っていることも有利な点といえるでしょう。実際の変換プロセスは、今後の研究課題だということでした。

Writer:Ritsuko Kawai / 河合律子

RELATED ARTICLE関連記事

【CEDEC2019】中島秀之氏 基調講演:環境との相互作用を取り込む予期知能が、機械学習の課題を解決に導く

2019.9.20ゲーム

【CEDEC2019】中島秀之氏 基調講演:環境との相互作用を取り込む予期知能が...

AIが変えた現代将棋の常識と定跡:北尾まどか氏×森川幸人氏 対談

2019.6.25ゲーム

AIが変えた現代将棋の常識と定跡:北尾まどか氏×森川幸人氏 対談

【CEDEC2021】ディープラーニングとルールベースによるヒロインの「冴える」セリフ生成

2021.9.22ゲーム

【CEDEC2021】ディープラーニングとルールベースによるヒロインの「冴える」...

RANKING注目の記事はこちら