モリカトロン株式会社運営「エンターテインメント×AI」の最新情報をお届けするサイトです。

TAG LIST
機械学習ディープラーニングCGCGへの扉安藤幸央GANニューラルネットワーク月刊エンタメAIニュース強化学習モリカトロンAIラボインタビュー音楽三宅陽一郎OpenAI敵対的生成ネットワークQACEDEC2019シナリオNVIDIAFacebookデバッグスクウェア・エニックスDeepMind人工知能学会CEDEC2020ゲームAI映画遺伝的アルゴリズム不完全情報ゲーム深層学習マイクロソフトルールベースAIと倫理ビヘイビア・ツリーGoogleSIGGRAPHGDC 2019VRキャラクターAIボードゲーム畳み込みニューラルネットワークロボットグーグルプロシージャルVFXメタAIファッション河合律子StyleGAN自動生成JSAI2020CNNMicrosoftイベントレポートモリカトロンマルチエージェントゲームプレイAIナビゲーションAI森川幸人水野勇太ガイスターCLIP自然言語処理アートtoioHTN階層型タスクネットワークスポーツGPT-3TensorFlowGDC SummereSportsBLUE PROTOCOL小説DALL-EAlphaZeroカメラ環世界中島秀之懐ゲーから辿るゲームAI技術史JSAI2021研究ディープフェイクDARPAドローンAI美空ひばり手塚治虫汎用人工知能メタデータ通しプレイOpenAI Five本間翔太CM倫理ピクサーAdobe作曲中嶋謙互Amadeus CodeMicrosoft Azureキャリアテストプレイeスポーツ音声認識PyTorchDQN眞鍋和子バンダイナムコスタジオシーマンUnity齊藤陽介マインクラフトお知らせAIアートサルでもわかる人工知能VAEアニメーションワークショップGenvid Technologies知識表現IGDANPCどうぶつしょうぎジェイ・コウガミ音楽ストリーミングStyleGAN2マシンラーニングクラウドコンピューティショナル・フォトグラフィーGPT-2完全情報ゲーム坂本洋典釜屋憲彦藤澤仁生物学画像認識NFT長谷洋平鴫原盛之masumi toyota宮路洋一SIGGRAPH ASIA吉本幸記ソニーフェイクニュースシムピープルGPUALife人工生命オルタナティヴ・マシンサウンドスケープASBSマンガぱいどんTEZUKA2020松井俊浩Electronic ArtsマーケティングApex LegendsNinjaゲームTENTUPLAYMARVEL Future Fightタイムラプスバスキアブロックチェーン階層型強化学習WANN竹内将馬淵浩希岡島学映像セリア・ホデントUX認知科学ゲームデザインLUMINOUS ENGINELuminous Productionsパターン・ランゲージちょまどビッグデータアストロノーカ模倣学習ナラティブFPSマルコフ決定過程スタンフォード大学パラメータ設計テニスバランス調整レコメンドシステム対話型エージェント協調フィルタリング人狼知能Amazon軍事AlphaDogfight TrialsエージェントシミュレーションStarCraft IIFuture of Life InstituteIntelロボティクスLAIKARotomationドラゴンクエストライバルズ不確定ゲームDota 2モンテカルロ木探索ソーシャルゲームEmbeddingGTC2020NVIDIA MAXINE淡路滋ビデオ会議グリムノーツゴティエ・ボエダGautier Boeda階層的クラスタリングaiboJuliusSIETPRGバーチャル・ヒューマン・エージェントtoio SDK for Unityクーガー田中章愛石井敦銭起揚茂谷保伯MinecraftGDMC成沢理恵MITメディアラボ著作権マジック・リープMagic Leap OneMagendaノンファンジブルトークンDDSPサッカー里井大輝KaggleバスケットボールAssassin’s Creed OriginsSea of ThievesGEMS COMPANYmonoAI technologyアバター初音ミクOculus転移学習テストBaldur's Gate 3Candy Crush SagaSIGGRAPH ASIA 2020デバッギングBigGANMaterialGANリップシンキングRNNUbisoftReBeLUbisoft La Forge自動運転車VolvoRival Prakウォッチドッグス レギオンユービーアイソフト北尾まどかHALO将棋メタルギアソリッドVFSMナップサック問題汎用言語モデルSpotifyMITReplica StudioamuseChitrakar巡回セールスマン問題ジョルダン曲線5GMuZeroクラウドゲーミングRival Peak和田洋一リアリティ番組Stadiaジョンソン裕子MILEs対話エンジンインタラクティブ・ストリーミング斎藤由多加インタラクティブ・メディアリトル・コンピュータ・ピープルシーマン人工知能研究所Ludoゴブレット・ゴブラーズTransformerSIGGRAPH 2019ArtEmis絵画ARGROVERFAIRAIりんなチート検出オンラインカジノアップルRealFlowiPhoneシミュレーションDeep FluidsMeInGameAIGraphブレイン・コンピュータ・インタフェースBCILearning from Video予期知能ウェイポイントユクスキュルパス検索カント哲学ドラゴンクエストエージェントアーキテクチャPAIROCTOPATH TRAVELER西木康智OCTOPATH TRAVELER 大陸の覇者アルスエレクトロニカ2019StyleCLIPDeNAStyleRig逆転オセロニア奥村エルネスト純いただきストリート齋藤精一大森田不可止高橋智隆ロボユニザナック泉幸典仁井谷正充ロボコレ2019ぎゅわんぶらあ自己中心派Azure Machine Learning意思決定モデル脱出ゲームHybrid Reward ArchitectureウロチョロスSuper Phoenix理化学研究所Project Malmo教育TextWorldProject PaidiaProject LookoutWatch ForBingLEFT ALIVE長谷川誠ジミ・ヘンドリックスBaby Xカート・コバーンロバート・ダウニー・Jr.エイミー・ワインハウスMagentaYouTubeダフト・パンクSFGlenn MarshallThe Age of A.I.Story2HallucinationレコメンデーションJukeboxGTC2021CycleGANテンセントSIFTDCGANMOBADANNCE人事ハーバード大学研修デューク大学mynet.aiローグライクゲームNetHack人工音声NeurIPS 2021はこだて未来大学プレイ動画ヒップホップサイレント映画NBA環境音現代アートエージェント粒子群最適化法進化差分法群知能下川大樹ウィル・ライト高津芳希シムシティ大石真史BEiTレベルデザインDETRSporeAIボイスアクターデノイズ南カリフォルニア大学画像処理NVIDIA CanvasSentropyCPUDiscordZorkCALMプログラミングソースコード生成GMAIシチズンデベロッパーTRPGGitHubウィザードリィAI Dungeon西川善司サムライスピリッツゼビウスストリートファイター栗原聡山野辺一記大里飛鳥13フェイズ構造手塚眞不気味の谷Oculus Quest生体情報写真照明山崎陽斗立木創太スパーシャルAIGameGANパックマンソサエティ5.0SIGGRAPH 2020DIB-R3D広告

にわかレベルだったゲームプレイAIは、いかにして熟練プレイヤーになったか?

2020.4.30ゲーム

にわかレベルだったゲームプレイAIは、いかにして熟練プレイヤーになったか?

AIにゲームをプレイさせることは、AI研究の黎明期から現在にいたるまでその性能を評価するタスクとして取り組まれてきました。近年のゲームプレイAIに関する重要な業績のひとつとして、Google傘下のDeepMindが開発した「AlphaGo」が挙げられます。最近、DeepMindが新たなマイルストーンを打ち立てました。この記事では、長らくAIが人のスコアを超えられなかったゲームのテストセットを全攻略したゲームプレイAIについて解説します。

ゲームプレイAIのベンチマーク「Atari57」

AIの性能を評価するゲームには、その起源をアナログゲームに持つチェスや将棋があります。チェスや将棋がゲームプレイAIの研究テーマとして好まれるのは、明示的なルールがありながらゲーム展開に膨大な可能性があるうえに、勝敗という分かりやすい形で結果を評価できるからです。AIの進化に伴い、AIが挑戦するゲームもアナログゲームからビデオゲームに広がっていきます。

こうしたゲームプレイAIのベンチマークとして提案されたビデオゲームのテストセットが、2012年に発表された「Atari57」(正式名称は” the Arcade Learning environment“、アーケードゲームの学習環境という意味)です。このテストセットは、1977年にアメリカで発売された家庭用ゲーム機「Atari 2600」でプレイ可能だった57のゲームをAIがプレイできるように集めたものです。集められたゲームには、世界初のブロック崩しゲーム『ブレイクアウト』(1976年、アタリ)や卓球を模した『ポン』(1972年、アタリ)があります。

2012年の発表以来、Atari57に挑戦するゲームプレイAIは多数開発されましたが、57のゲームのうち『モンテズマの復讐』(1983年、Utopia Software)『ピットフォール』(1982年、アクティビジョン)『ソラリス』(1986年、アタリ)『スキー』(1980年、アクティビジョン)の4つで人間の平均スコアを超えられずにいました。サイドビュー型のアクションゲームである『モンテズマの復讐』と『ピットフォール』は、ゲームクリアのために試行できるアクションが膨大なため、また『ソラリス』と『スキー』は長いゲームステージをクリアする必要があるためにAIには難しかったのです。

以上のような4つのゲームが長らく壁として立ちはだかっていたなか、2020年3月、DeepMindはAtari57のすべてのゲームにおいて人間の平均スコアを超えたゲームプレイAIを開発したことを発表しました。そのAIは、Atari57にあやかり「Agent57」と命名されました。Agent57が開発されるまでの歩みは、まるで初心者ゲーマーが多数のスキルを習得して熟練ゲーマーに成長する過程に似たものでした。

DQNが熟練プレイヤーになるまで

Agent57は全く白紙の状態から開発されたわけではなく、DeepMindの長年にわたるゲームプレイAI研究における最新の成果として発表されたものでした。Agent57のもっとも古い祖先に当たるのが、2015年に発表されたDQN(正式名称”Deep Q-Network”の略称)です。DQNは、強化学習とディープラーニングを組み合わせたことによって『ブレイクアウト』で驚異的なスコアを叩き出しました。DQNの開発によって、DeepMindは世界にその名を轟かせたのでした。

DQNはAtari57の一部のゲームではハイスコアを記録したのですが、人間の平均スコアに及ばないゲームも多数ありました。DeepMindは、57のゲームすべてにおいて人間を超えるべく、DQNの改良を続けました。そうした改良は、以下のような3段階にまとめることができます。

プレイと学習の分離と記憶の導入

強化学習においてAIは与えられた環境との相互作用を通して、達成すべきタスクを遂行するために最適な選択肢を探索していきます。強化学習の仕組みをビデオゲームの攻略になぞらえて言えば、試行錯誤を繰り返すことを通してゲームクリアやハイスコアを目指す、となります。基本的な強化学習においては、ゲームをプレイするAIとゲームプレイを評価するAIは同一です。しかし、ゲームをプレイするAIと評価するAIを分けてしまえば、前者を量産することによって、試行錯誤する回数を増やすことが可能となります。DQNの改良としてはじめに取り組まれたのが、こうしたプレイと学習を分けた分散型強化学習の実装でした。

DQNをさらに改良するために着目されたのが、記憶力です。ゲームを上達したければ、過去のプレイを振り返って成功と失敗の両方を学ぶことが不可欠となります。DQNに記憶力を追加するために、RNN(Recurrent Neural Network)と呼ばれる時系列データを処理するのに適したAIアルゴリズムが実装されました。

以上のような分散型強化学習と記憶力で強化されたR2D2(Recurrent Replay Distributed DQN)は、従来の強化学習AIが記録したAtari57の平均スコアを大幅に更新したのでした。

未知から学ぶ

R2D2は、分散されたプレイの記憶から学習することで大きな進化を遂げました。R2D2のさらなる進化は、「無知から学ぶ」ことによって実現しました。ゲームプレイAIにおける無知とは、今まで試行したことのない「未経験のゲームプレイ」を意味します。こうした未経験のゲームプレイが、ハイスコア更新につながるプレイになるかも知れないのです。

DeepMindは、R2D2に対して未経験のゲームプレイを推奨するために、過去のゲームプレイと比較して新規的なプレイを選択した場合に追加的な報酬を与えるようにしました。こうして誕生したNGU(Never Give Up)は、4大難関ゲームのひとつ『ピットフォール』で好スコアを記録しました。

しかし、NGUにも弱点がありました。ゲームプレイ時間が長くなると、次第に未経験のゲームプレイが少なくなり、結局は同じようなゲームプレイに落ち着いてしまうのです。言わば、ゲームをやり込んだ結果、マンネリ化したプレイに陥ったのでした。

強化学習の根本問題に切り込む

NGUの弱点は、実のところ、強化学習における根本問題と関係しています。強化学習AIは試行錯誤を繰り返すなかで、既知の選択肢から得られる報酬と未知のそれから得られる報酬を絶えず比較して最適な選択を探索します。こうした探索において、既知の選択肢を選べば、確実に一定の報酬が得られます。その一方で、未知のそれを選べば、より多くの報酬が得られる可能性があります。もっとも、未知の選択肢は報酬が少なくなるという可能性もはらんでいます。強化学習AIは、既知と未知のあいだを揺れ動きながら最適な選択肢を探索するわけなのです。こうした状況は、「探索と搾取のジレンマ」と呼ばれています。NGUは、このジレンマに対して未知の選択肢にインセンティブを与えたわけですが、長期的には最適なゲームプレイを探索するのに失敗していた、と見なせます。

探索と搾取のジレンマに関しては、得られるコイン数が異なる複数のスロットマシンから最大の報酬を得る戦略を考察する「多腕バンディット問題」として数学的に定式化されて、最適なアルゴリズムを考案するのが慣わしとなっています。DeepMindは、この問題を解決する新アルゴリズムを発明したことによって、(未知を好む)NGUの探索方針に新たな動機付けを導入したのでした。こうしてNGUが進化したものが、Agent57なのです。

以上に解説したDQNからAgent57に進化する過程は、初心者ゲーマーが熟練ゲーマーになる過程に似ているかも知れません。その過程を要約すると、過去のプレイから学び(R2D2)、新しい攻略法に果敢に挑み(NGU)、ゲームプレイがマンネリ化しないようにモチベーションの維持も体得した(Agent57)、と表現できるでしょう。

ゲームプレイAIを量子コンピュータに応用?

ところで、なぜDeepMindは強化学習やゲームプレイAIの研究開発に熱心なのでしょうか。その理由は、同社がAIを活用したゲームを開発したいからではありません。強化学習やゲームプレイAIの研究は、汎用的な学習能力を備えた人間と同等の能力がある汎用人工知能(Artificial General Intelligence:AGI)の実現につながる、と同社は考えているのです。こうした同社の思想が証明された事例が、最近報告されました。

テック系メディアSyncedは今年1月、DeepMindが開発したゲームプレイAI「AlphaZero」が量子コンピュータの研究開発に応用されたことを長文記事配信ウェブサイトMediumで報じました。AlphaZeroとは、AlphaGoを祖先にもつチェス、将棋、そして囲碁で世界トップクラスの強さを誇るゲームプレイAIです。AlphaZeroがアナログゲームにおいて汎用的な強さを発揮するのは、一定のルールから構成された問題に対する最適解を算出することに優れているからです。

Syncedの記事によると、デンマークのオーフス大学は量子コンピュータにAlphaZeroを応用した結果をまとめた論文を発表しました。量子コンピュータを運用するにあたっては、量子の状態を最適化する必要があります。この量子最適化問題の解決にAlphaZeroを使ってみたところ、量子コンピュータのパフォーマンスが改善されました。

以上の論文の共著者であるJacob Sherson教授は、研究に用いたソースコードを公表した数時間後には、量子コンピュータを研究する多数の大手テック系企業や一流大学からコラボの申し出の連絡があった、と語っています。

ゲームプレイAIの研究開発は、ゲームエンジンAIの進化に寄与することは明らかです。しかしAlphaZeroの事例が示すように、ゲームというジャンルを超えて、実用的な領域に対しても応用される可能性が大いにあるのです。ゲームプレイにおいて汎用性を証明したAgent57も、ゲーム以外で活用されるかも知れません。

吉本幸記/Photo by Andre Hunter on Unsplash

RELATED ARTICLE関連記事

ゲームAIは5年後にどこに向かうのか?:若手ゲームAIエンジニア座談会(前編)

2020.2.05ゲーム

ゲームAIは5年後にどこに向かうのか?:若手ゲームAIエンジニア座談会(前編)

ゲーム制作現場ですぐに使える!モリカトロンのAIソリューション5種

2021.6.28ゲーム

ゲーム制作現場ですぐに使える!モリカトロンのAIソリューション5種

【GDCSummer】認知科学からみるゲームデザインにおける感情操作の歴史

2020.9.14ゲーム

【GDCSummer】認知科学からみるゲームデザインにおける感情操作の歴史

RANKING注目の記事はこちら