モリカトロン株式会社運営「エンターテインメント×AI」の最新情報をお届けするサイトです。

TAG LIST
CG機械学習ディープラーニングCGへの扉安藤幸央GAN月刊エンタメAIニュースニューラルネットワーク河合律子NVIDIA強化学習三宅陽一郎OpenAI音楽FacebookQAスクウェア・エニックスモリカトロンAIラボインタビュー敵対的生成ネットワーク森川幸人ルールベースDeepMindキャラクターAIシナリオNFTGPT-3デバッグCEDEC2019StyleGANプロシージャル自動生成人工知能学会映画遺伝的アルゴリズムメタAI自然言語処理深層学習マイクロソフトビヘイビア・ツリー吉本幸記GoogleCEDEC2021CEDEC2020ゲームAISIGGRAPH不完全情報ゲームVRナビゲーションAI畳み込みニューラルネットワークAIと倫理アートグーグルディープフェイクGDC 2021大内孝子VFXメタバースGDC 2019マルチエージェントゲームプレイAIボードゲームNPCDALL-ECLIPロボットCNNデジタルツインモリカトロンUnityファッションHTN階層型タスクネットワークJSAI2020TensorFlowMicrosoftイベントレポートテストプレイAIアート水野勇太小説アニメーションガイスターStyleGAN2懐ゲーから辿るゲームAI技術史toioJSAI2021スポーツ研究シムピープル汎用人工知能GDC Summerバーチャルヒューマンブロックチェーン倫理AdobeアストロノーカNVIDIA Omniverseeスポーツ対話型エージェントAmazoneSportsBLUE PROTOCOLシーマンUbisoftAlphaZeroTransformerGPT-2カメラ環世界中島秀之鴫原盛之ソニーDARPAドローンシムシティAI美空ひばり手塚治虫Electronic ArtsメタデータLEFT 4 DEAD通しプレイOpenAI Five本間翔太CMピクサーBERTプラチナエッグイーサリアム作曲ビッグデータ中嶋謙互Amadeus CodeMicrosoft AzureキャリアナラティブOmniverse ReplicatorレコメンドシステムNVIDIA DRIVE SimNVIDIA Isaac Simサイバーエージェント音声認識ロボティクスPyTorchDQN眞鍋和子バンダイナムコスタジオMinecraft齊藤陽介マインクラフトお知らせチャットボットアバターサルでもわかる人工知能VAEOmniverseUbisoft La Forge自動運転車ワークショップGenvid Technologiesメタ知識表現ウォッチドッグス レギオンIGDAどうぶつしょうぎEpic Gamesジェイ・コウガミ音楽ストリーミングマシンラーニング画像生成テキスト画像生成クラウド対話エンジン斎藤由多加リトル・コンピュータ・ピープルコンピューティショナル・フォトグラフィーゴブレット・ゴブラーズ絵画AIりんなシミュレーション完全情報ゲーム坂本洋典釜屋憲彦ウェイポイントパス検索藤澤仁生物学GTC 2022画像認識GTC2022StyleCLIPDeNA長谷洋平masumi toyota宮路洋一OpenSeaGDC 2022教育TextWorldSIGGRAPH ASIADALL-E2GTC2021CycleGANNetHackフェイクニュースエージェントAIボイスアクターNVIDIA CanvasGPUALifeZork人工生命オルタナティヴ・マシンサウンドスケープMCS-AI動的連携モデルASBSマンガモーションキャプチャーぱいどんTEZUKA2020ナビゲーションメッシュ松井俊浩バンダイナムコ研究所スパーシャルAIELYZAELYZA DIGEST3D音声合成マーケティングApex LegendsELIZANinjaコンピュータRPGアップルタウン物語KELDICメロディ言語ゲームTENTUPLAYMARVEL Future FightAstroタイムラプスEgo4Dインタビューバスキア日経イノベーション・ラボ敵対的強化学習階層型強化学習GOSU Data LabWANNGOSU Voice Assistant竹内将SenpAI.GGMobalytics馬淵浩希Cygames岡島学AWS Sagemaker映像セリア・ホデント形態素解析UXAWS Lambda誤字検出認知科学ゲームデザインSentencePieceLUMINOUS ENGINELuminous Productionsパターン・ランゲージ竹村也哉ちょまどボエダ・ゴティエGOAPAdobe MAX 2021模倣学習Omniverse AvatarFPSNVIDIA Rivaマルコフ決定過程NVIDIA MegatronNVIDIA Merlinスタンフォード大学NVIDIA Metropolisパラメータ設計テニスバランス調整協調フィルタリング人狼知能テキサス大学軍事AlphaDogfight TrialsAI Messenger VoicebotエージェントシミュレーションOpenAI CodexStarCraft IIHyperStyleFuture of Life InstituteRendering with StyleIntelDisneyLAIKADisneyリサーチRotomationGauGANGauGAN2ドラゴンクエストライバルズ画像言語表現モデル不確定ゲームSIGGRAPH ASIA 2021Dota 2モンテカルロ木探索ディズニーリサーチMitsuba2ソーシャルゲームEmbeddingワイツマン科学研究所GTC2020CG衣装NVIDIA MAXINEVRファッション淡路滋ビデオ会議ArtflowグリムノーツEponymゴティエ・ボエダ音声クローニングGautier Boeda階層的クラスタリングGopheraibo合成音声JuliusSIE鑑定TPRGOxia Palusバーチャル・ヒューマン・エージェントtoio SDK for UnityArt Recognitionクーガー田中章愛Meta石井敦銭起揚NHC 2021茂谷保伯池田利夫GDMC新刊案内マーベル・シネマティック・ユニバース成沢理恵MITメディアラボMCU著作権アベンジャーズマジック・リープDigital DomainMagic Leap OneMagendaMasquerade2.0ノンファンジブルトークンDDSPフェイシャルキャプチャーサッカーモリカトロン開発者インタビュー里井大輝Kaggle宮本茂則バスケットボール山田暉Assassin’s Creed OriginsAI会話ジェネレーターSea of ThievesGEMS COMPANYmonoAI technologyLSTMモリカトロンAIソリューション初音ミクOculusコード生成AI転移学習テストAlphaCodeBaldur's Gate 3CodeforcesCandy Crush Saga自己増強型AISIGGRAPH ASIA 2020COLMAPADOPデバッギングBigGANGANverse3DMaterialGANリップシンキングRNNグランツーリスモSPORTReBeLグランツーリスモ・ソフィーGTソフィーVolvoFIAグランツーリスモチャンピオンシップRival PrakDGX A100VTuberユービーアイソフトWebcam VTuber星新一賞北尾まどかHALO市場分析将棋メタルギアソリッドVフォートナイトFSMRobloxナップサック問題Live Nation汎用言語モデルWeb3.0AIOpsSpotifyMITスマートコントラクトReplica StudioAWSamuseChitrakarQosmo巡回セールスマン問題徳井直生ジョルダン曲線メディア5GMuZero政治クラウドゲーミングRival Peakがんばれ森川君2号和田洋一リアリティ番組Stadiaジョンソン裕子MILEsNightCafeインタラクティブ・ストリーミングLuis Ruizインタラクティブ・メディアポケモンCodexシーマン人工知能研究所東京工業大学Ludo博報堂ラップSIGGRAPH 2019ArtEmisZ世代AIラッパーシステムARrinnaGROVERプラスリンクス ~キミと繋がる想い~FAIRSTCチート検出Style Transfer ConversationオンラインカジノRCPアップルRealFlowRinna Character PlatformiPhoneデジタルヒューマンDeep FluidsSoul MachinesMeInGameAmeliaAIGraphブレイン・コンピュータ・インタフェースバーチャルキャラクターBCIGateboxLearning from VideoANIMAK予期知能逢妻ヒカリセコムユクスキュルバーチャル警備システムカント損保ジャパン哲学対談上原利之ドラゴンクエストエージェントアーキテクチャアッパーグラウンドPAIROCTOPATH TRAVELER西木康智OCTOPATH TRAVELER 大陸の覇者Siemensアルスエレクトロニカ2019品質保証StyleRigAutodesk逆転オセロニアBentley Systemsワールドシミュレーター奥村エルネスト純いただきストリートH100齋藤精一大森田不可止COBOL高橋智隆DGX H100ロボユニザナックDGX SuperPOD泉幸典仁井谷正充クラウドコンピューティングロボコレ2019Instant NeRFartonomousbitGANsぎゅわんぶらあ自己中心派Azure Machine Learning意思決定モデル脱出ゲームHybrid Reward Architectureコミュニティ管理ウロチョロスSuper PhoenixSNS理化学研究所Project Malmoオンラインゲーム気候変動Project PaidiaEarth-2Project Lookoutマックス・プランク気象研究所Watch Forビョルン・スティーブンスBing気象モデルLEFT ALIVE気象シミュレーション長谷川誠ジミ・ヘンドリックス環境問題Baby Xカート・コバーンエコロジーロバート・ダウニー・Jr.エイミー・ワインハウスSDGsMagentaYouTubeダフト・パンクメモリスタSFGlenn MarshallELYZA PencilThe Age of A.I.Story2Hallucination音声変換レコメンデーションJukebox松尾豊Veap JapanEAPテンセントSIFT福井千春DCGAN医療MOBADANNCEメンタルケア人事ハーバード大学Edgar Handy研修デューク大学Netflixデータマイニングmynet.aiローグライクゲーム東京大学東京理科大学人工音声NeurIPS 2021産業技術総合研究所はこだて未来大学リザバーコンピューティングプレイ動画ヒップホップキャラクターモーションソニーマーケティングサイレント映画もじぱNBA環境音暗号通貨現代アートFUZZLEAlteration粒子群最適化法RPG進化差分法オープンワールド群知能下川大樹AIFAウィル・ライト高津芳希P2E大石真史SIGGRAPH 2022BEiTStyleGAN-NADAレベルデザインDETRゲームエンジンSporeUnreal Engineデノイズ南カリフォルニア大学Unity for Industry画像処理SentropyCPUDiscordCALMプログラミングソースコード生成GMAIシチズンデベロッパーTRPGGitHubウィザードリィMCN-AI連携モデルAI Dungeon西川善司並木幸介サムライスピリッツ森寅嘉ゼビウスSIGGRAPH 2021ストリートファイター半導体Topaz Video Enhance AI栗原聡DLSS山野辺一記NetEase大里飛鳥DynamixyzU-Net13フェイズ構造アドベンチャーゲームADVXLandAGI手塚眞DEATH STRANDING不気味の谷Eric JohnsonOculus Questコジマプロダクション生体情報デシマエンジンインディーゲーム写真高橋ミレイ照明Maxim PeterJoshua Romoffハイパースケープ山崎陽斗深層強化学習立木創太ミライ小町テスラGameGANパックマンTesla BotTesla AI Dayソサエティ5.0SIGGRAPH 2020バズグラフニュースタンテキ東芝DIB-R倉田宜典韻律射影広告韻律転移

にわかレベルだったゲームプレイAIは、いかにして熟練プレイヤーになったか?

2020.4.30ゲーム

にわかレベルだったゲームプレイAIは、いかにして熟練プレイヤーになったか?

AIにゲームをプレイさせることは、AI研究の黎明期から現在にいたるまでその性能を評価するタスクとして取り組まれてきました。近年のゲームプレイAIに関する重要な業績のひとつとして、Google傘下のDeepMindが開発した「AlphaGo」が挙げられます。最近、DeepMindが新たなマイルストーンを打ち立てました。この記事では、長らくAIが人のスコアを超えられなかったゲームのテストセットを全攻略したゲームプレイAIについて解説します。

ゲームプレイAIのベンチマーク「Atari57」

AIの性能を評価するゲームには、その起源をアナログゲームに持つチェスや将棋があります。チェスや将棋がゲームプレイAIの研究テーマとして好まれるのは、明示的なルールがありながらゲーム展開に膨大な可能性があるうえに、勝敗という分かりやすい形で結果を評価できるからです。AIの進化に伴い、AIが挑戦するゲームもアナログゲームからビデオゲームに広がっていきます。

こうしたゲームプレイAIのベンチマークとして提案されたビデオゲームのテストセットが、2012年に発表された「Atari57」(正式名称は” the Arcade Learning environment“、アーケードゲームの学習環境という意味)です。このテストセットは、1977年にアメリカで発売された家庭用ゲーム機「Atari 2600」でプレイ可能だった57のゲームをAIがプレイできるように集めたものです。集められたゲームには、世界初のブロック崩しゲーム『ブレイクアウト』(1976年、アタリ)や卓球を模した『ポン』(1972年、アタリ)があります。

2012年の発表以来、Atari57に挑戦するゲームプレイAIは多数開発されましたが、57のゲームのうち『モンテズマの復讐』(1983年、Utopia Software)『ピットフォール』(1982年、アクティビジョン)『ソラリス』(1986年、アタリ)『スキー』(1980年、アクティビジョン)の4つで人間の平均スコアを超えられずにいました。サイドビュー型のアクションゲームである『モンテズマの復讐』と『ピットフォール』は、ゲームクリアのために試行できるアクションが膨大なため、また『ソラリス』と『スキー』は長いゲームステージをクリアする必要があるためにAIには難しかったのです。

以上のような4つのゲームが長らく壁として立ちはだかっていたなか、2020年3月、DeepMindはAtari57のすべてのゲームにおいて人間の平均スコアを超えたゲームプレイAIを開発したことを発表しました。そのAIは、Atari57にあやかり「Agent57」と命名されました。Agent57が開発されるまでの歩みは、まるで初心者ゲーマーが多数のスキルを習得して熟練ゲーマーに成長する過程に似たものでした。

DQNが熟練プレイヤーになるまで

Agent57は全く白紙の状態から開発されたわけではなく、DeepMindの長年にわたるゲームプレイAI研究における最新の成果として発表されたものでした。Agent57のもっとも古い祖先に当たるのが、2015年に発表されたDQN(正式名称”Deep Q-Network”の略称)です。DQNは、強化学習とディープラーニングを組み合わせたことによって『ブレイクアウト』で驚異的なスコアを叩き出しました。DQNの開発によって、DeepMindは世界にその名を轟かせたのでした。

DQNはAtari57の一部のゲームではハイスコアを記録したのですが、人間の平均スコアに及ばないゲームも多数ありました。DeepMindは、57のゲームすべてにおいて人間を超えるべく、DQNの改良を続けました。そうした改良は、以下のような3段階にまとめることができます。

プレイと学習の分離と記憶の導入

強化学習においてAIは与えられた環境との相互作用を通して、達成すべきタスクを遂行するために最適な選択肢を探索していきます。強化学習の仕組みをビデオゲームの攻略になぞらえて言えば、試行錯誤を繰り返すことを通してゲームクリアやハイスコアを目指す、となります。基本的な強化学習においては、ゲームをプレイするAIとゲームプレイを評価するAIは同一です。しかし、ゲームをプレイするAIと評価するAIを分けてしまえば、前者を量産することによって、試行錯誤する回数を増やすことが可能となります。DQNの改良としてはじめに取り組まれたのが、こうしたプレイと学習を分けた分散型強化学習の実装でした。

DQNをさらに改良するために着目されたのが、記憶力です。ゲームを上達したければ、過去のプレイを振り返って成功と失敗の両方を学ぶことが不可欠となります。DQNに記憶力を追加するために、RNN(Recurrent Neural Network)と呼ばれる時系列データを処理するのに適したAIアルゴリズムが実装されました。

以上のような分散型強化学習と記憶力で強化されたR2D2(Recurrent Replay Distributed DQN)は、従来の強化学習AIが記録したAtari57の平均スコアを大幅に更新したのでした。

未知から学ぶ

R2D2は、分散されたプレイの記憶から学習することで大きな進化を遂げました。R2D2のさらなる進化は、「無知から学ぶ」ことによって実現しました。ゲームプレイAIにおける無知とは、今まで試行したことのない「未経験のゲームプレイ」を意味します。こうした未経験のゲームプレイが、ハイスコア更新につながるプレイになるかも知れないのです。

DeepMindは、R2D2に対して未経験のゲームプレイを推奨するために、過去のゲームプレイと比較して新規的なプレイを選択した場合に追加的な報酬を与えるようにしました。こうして誕生したNGU(Never Give Up)は、4大難関ゲームのひとつ『ピットフォール』で好スコアを記録しました。

しかし、NGUにも弱点がありました。ゲームプレイ時間が長くなると、次第に未経験のゲームプレイが少なくなり、結局は同じようなゲームプレイに落ち着いてしまうのです。言わば、ゲームをやり込んだ結果、マンネリ化したプレイに陥ったのでした。

強化学習の根本問題に切り込む

NGUの弱点は、実のところ、強化学習における根本問題と関係しています。強化学習AIは試行錯誤を繰り返すなかで、既知の選択肢から得られる報酬と未知のそれから得られる報酬を絶えず比較して最適な選択を探索します。こうした探索において、既知の選択肢を選べば、確実に一定の報酬が得られます。その一方で、未知のそれを選べば、より多くの報酬が得られる可能性があります。もっとも、未知の選択肢は報酬が少なくなるという可能性もはらんでいます。強化学習AIは、既知と未知のあいだを揺れ動きながら最適な選択肢を探索するわけなのです。こうした状況は、「探索と搾取のジレンマ」と呼ばれています。NGUは、このジレンマに対して未知の選択肢にインセンティブを与えたわけですが、長期的には最適なゲームプレイを探索するのに失敗していた、と見なせます。

探索と搾取のジレンマに関しては、得られるコイン数が異なる複数のスロットマシンから最大の報酬を得る戦略を考察する「多腕バンディット問題」として数学的に定式化されて、最適なアルゴリズムを考案するのが慣わしとなっています。DeepMindは、この問題を解決する新アルゴリズムを発明したことによって、(未知を好む)NGUの探索方針に新たな動機付けを導入したのでした。こうしてNGUが進化したものが、Agent57なのです。

以上に解説したDQNからAgent57に進化する過程は、初心者ゲーマーが熟練ゲーマーになる過程に似ているかも知れません。その過程を要約すると、過去のプレイから学び(R2D2)、新しい攻略法に果敢に挑み(NGU)、ゲームプレイがマンネリ化しないようにモチベーションの維持も体得した(Agent57)、と表現できるでしょう。

ゲームプレイAIを量子コンピュータに応用?

ところで、なぜDeepMindは強化学習やゲームプレイAIの研究開発に熱心なのでしょうか。その理由は、同社がAIを活用したゲームを開発したいからではありません。強化学習やゲームプレイAIの研究は、汎用的な学習能力を備えた人間と同等の能力がある汎用人工知能(Artificial General Intelligence:AGI)の実現につながる、と同社は考えているのです。こうした同社の思想が証明された事例が、最近報告されました。

テック系メディアSyncedは今年1月、DeepMindが開発したゲームプレイAI「AlphaZero」が量子コンピュータの研究開発に応用されたことを長文記事配信ウェブサイトMediumで報じました。AlphaZeroとは、AlphaGoを祖先にもつチェス、将棋、そして囲碁で世界トップクラスの強さを誇るゲームプレイAIです。AlphaZeroがアナログゲームにおいて汎用的な強さを発揮するのは、一定のルールから構成された問題に対する最適解を算出することに優れているからです。

Syncedの記事によると、デンマークのオーフス大学は量子コンピュータにAlphaZeroを応用した結果をまとめた論文を発表しました。量子コンピュータを運用するにあたっては、量子の状態を最適化する必要があります。この量子最適化問題の解決にAlphaZeroを使ってみたところ、量子コンピュータのパフォーマンスが改善されました。

以上の論文の共著者であるJacob Sherson教授は、研究に用いたソースコードを公表した数時間後には、量子コンピュータを研究する多数の大手テック系企業や一流大学からコラボの申し出の連絡があった、と語っています。

ゲームプレイAIの研究開発は、ゲームエンジンAIの進化に寄与することは明らかです。しかしAlphaZeroの事例が示すように、ゲームというジャンルを超えて、実用的な領域に対しても応用される可能性が大いにあるのです。ゲームプレイにおいて汎用性を証明したAgent57も、ゲーム以外で活用されるかも知れません。

吉本幸記/Photo by Andre Hunter on Unsplash

RELATED ARTICLE関連記事

CGへの扉 Vol.32:Adobe Sneaks より進化の方向性を知る

2021.11.19ゲーム

CGへの扉 Vol.32:Adobe Sneaks より進化の方向性を知る

2D画像だけで大丈夫。3D画像や3Dオブジェクトを自動生成するAIまとめ

2020.7.27ゲーム

2D画像だけで大丈夫。3D画像や3Dオブジェクトを自動生成するAIまとめ

【CEDEC2019】汎用型ボードゲームAIの開発に向けたモリカトロンの挑戦

2019.9.17ゲーム

【CEDEC2019】汎用型ボードゲームAIの開発に向けたモリカトロンの挑戦

RANKING注目の記事はこちら