モリカトロン株式会社運営「エンターテインメント×AI」の最新情報をお届けするサイトです。

TAG LIST
機械学習ディープラーニングCGCGへの扉安藤幸央GANニューラルネットワーク月刊エンタメAIニュース強化学習三宅陽一郎モリカトロンAIラボインタビュー音楽OpenAI敵対的生成ネットワークQAシナリオCEDEC2019NVIDIA人工知能学会Facebookデバッグスクウェア・エニックスDeepMindCEDEC2020ゲームAI映画遺伝的アルゴリズム不完全情報ゲームキャラクターAI深層学習マイクロソフトルールベースAIと倫理ビヘイビア・ツリーGoogleSIGGRAPHGDC 2019VRメタAIボードゲーム畳み込みニューラルネットワークロボットグーグルプロシージャルVFXマルチエージェントナビゲーションAIファッション河合律子StyleGAN自動生成JSAI2020CNNMicrosoftイベントレポートモリカトロンゲームプレイAI森川幸人水野勇太ガイスターCLIP自然言語処理アートtoioHTN階層型タスクネットワークJSAI2021スポーツGPT-3TensorFlowGDC SummereSportsBLUE PROTOCOL小説DALL-EAlphaZeroカメラ環世界中島秀之懐ゲーから辿るゲームAI技術史研究ディープフェイクDARPAドローンAI美空ひばり手塚治虫汎用人工知能メタデータ通しプレイOpenAI Five本間翔太CM倫理ピクサーAdobe作曲中嶋謙互Amadeus CodeMicrosoft Azureキャリアテストプレイeスポーツ音声認識PyTorchDQN眞鍋和子バンダイナムコスタジオシーマンUnity齊藤陽介マインクラフトお知らせAIアートサルでもわかる人工知能VAEアニメーションワークショップGenvid Technologies知識表現IGDANPCどうぶつしょうぎジェイ・コウガミ音楽ストリーミングStyleGAN2マシンラーニングクラウドコンピューティショナル・フォトグラフィーGPT-2完全情報ゲーム坂本洋典釜屋憲彦藤澤仁生物学画像認識NFT長谷洋平鴫原盛之masumi toyota宮路洋一SIGGRAPH ASIA吉本幸記ソニーフェイクニュースシムピープルGPUALife人工生命オルタナティヴ・マシンサウンドスケープASBSマンガぱいどんTEZUKA2020松井俊浩スパーシャルAIElectronic ArtsマーケティングApex LegendsNinjaゲームTENTUPLAYMARVEL Future Fightタイムラプスバスキアブロックチェーン階層型強化学習WANN竹内将馬淵浩希岡島学映像セリア・ホデントUX認知科学ゲームデザインLUMINOUS ENGINELuminous Productionsパターン・ランゲージちょまどビッグデータアストロノーカ模倣学習ナラティブFPSマルコフ決定過程スタンフォード大学パラメータ設計テニスバランス調整レコメンドシステム対話型エージェント協調フィルタリング人狼知能Amazon軍事AlphaDogfight TrialsエージェントシミュレーションStarCraft IIFuture of Life InstituteIntelロボティクスLAIKARotomationドラゴンクエストライバルズ不確定ゲームDota 2モンテカルロ木探索ソーシャルゲームEmbeddingGTC2020NVIDIA MAXINE淡路滋ビデオ会議グリムノーツゴティエ・ボエダGautier Boeda階層的クラスタリングaiboJuliusSIETPRGバーチャル・ヒューマン・エージェントtoio SDK for Unityクーガー田中章愛石井敦銭起揚茂谷保伯MinecraftGDMC成沢理恵MITメディアラボ著作権マジック・リープMagic Leap OneMagendaノンファンジブルトークンDDSPサッカー里井大輝KaggleバスケットボールAssassin’s Creed OriginsSea of ThievesGEMS COMPANYmonoAI technologyアバター初音ミクOculus転移学習テストBaldur's Gate 3Candy Crush SagaSIGGRAPH ASIA 2020デバッギングBigGANMaterialGANリップシンキングRNNUbisoftReBeLUbisoft La Forge自動運転車VolvoRival Prakウォッチドッグス レギオンユービーアイソフト北尾まどかHALO将棋メタルギアソリッドVFSMナップサック問題汎用言語モデルSpotifyMITReplica StudioamuseChitrakar巡回セールスマン問題ジョルダン曲線5GMuZeroクラウドゲーミングRival Peak和田洋一リアリティ番組Stadiaジョンソン裕子MILEs対話エンジンインタラクティブ・ストリーミング斎藤由多加インタラクティブ・メディアリトル・コンピュータ・ピープルシーマン人工知能研究所Ludoゴブレット・ゴブラーズTransformerSIGGRAPH 2019ArtEmis絵画ARGROVERFAIRAIりんなチート検出オンラインカジノアップルRealFlowiPhoneシミュレーションDeep FluidsMeInGameAIGraphブレイン・コンピュータ・インタフェースBCILearning from Video予期知能ウェイポイントユクスキュルパス検索カント哲学ドラゴンクエストエージェントアーキテクチャPAIROCTOPATH TRAVELER西木康智OCTOPATH TRAVELER 大陸の覇者アルスエレクトロニカ2019StyleCLIPDeNAStyleRig逆転オセロニア奥村エルネスト純いただきストリート齋藤精一大森田不可止高橋智隆ロボユニザナック泉幸典仁井谷正充ロボコレ2019ぎゅわんぶらあ自己中心派Azure Machine Learning意思決定モデル脱出ゲームHybrid Reward ArchitectureウロチョロスSuper Phoenix理化学研究所Project Malmo教育TextWorldProject PaidiaProject LookoutWatch ForBingLEFT ALIVE長谷川誠ジミ・ヘンドリックスBaby Xカート・コバーンロバート・ダウニー・Jr.エイミー・ワインハウスMagentaYouTubeダフト・パンクSFGlenn MarshallThe Age of A.I.Story2HallucinationレコメンデーションJukeboxGTC2021CycleGANテンセントSIFTDCGANMOBADANNCE人事ハーバード大学研修デューク大学mynet.aiローグライクゲームNetHack人工音声NeurIPS 2021はこだて未来大学プレイ動画ヒップホップサイレント映画NBA環境音現代アートエージェント粒子群最適化法進化差分法群知能下川大樹ウィル・ライト高津芳希シムシティ大石真史BEiTレベルデザインDETRSporeAIボイスアクターデノイズ南カリフォルニア大学画像処理NVIDIA CanvasSentropyCPUDiscordZorkCALMプログラミングソースコード生成GMAIシチズンデベロッパーTRPGGitHubウィザードリィMCN-AI連携モデルAI DungeonMCS-AI動的連携モデル西川善司サムライスピリッツゼビウスストリートファイター栗原聡山野辺一記大里飛鳥13フェイズ構造手塚眞不気味の谷Oculus Quest生体情報写真照明山崎陽斗立木創太GameGANパックマンソサエティ5.0SIGGRAPH 2020DIB-R3D広告

学習の秘訣は計画性にあり。ルールの知識なしで学習するゲームプレイAI「MuZero」の到達点と可能性

2021.1.27ゲーム

学習の秘訣は計画性にあり。ルールの知識なしで学習するゲームプレイAI「MuZero」の到達点と可能性

昨年12月23日、Google傘下のAI研究機関DeepMindは画期的なゲームプレイAI「MuZero」を発表しました。同機関は、これまでにも囲碁トッププロに勝利した「AlphaGo」、学習データなしにチェス、将棋、そして囲碁でトップレベルの棋力を発揮した「AlphaZero」を発表してきました。MuZeroは、こうした同機関の研究の延長線上にあるAIです。この記事では、MuZeroの革新性とその可能性について解説します。

降雨のメカニズムを知らなくても、傘をさせば濡れない

MuZeroをはじめとするほとんどのゲームプレイAIは、強化学習という技法が使われています。従来の強化学習は、さらに先読み探索とモデルベース学習という2つの手法に分類されます。

先読み探索とは目標を達成する最善な選択肢を可能な選択肢のなかから絞り込む手法であり、AlphaZeroで採用されています。この手法はチェスのような簡単かつ明示的なルールがあるゲームの解決には有効ですが、現実世界の問題は複雑かつ不明瞭なので、この手法の応用範囲は限られます。モデルベース学習は、問題が生じる環境との相互作用から最適な行動を学習する手法です。この手法では環境を正確にモデル化する必要があるのですが、現実世界の問題はモデル化すること自体が非常に困難という欠点があります。

MuZeroは、従来の強化学習の限界を打破するAIとして開発されました。以前の限界を打破する手法として採用されたのが、「計画的な学習」です。この手法は、対処すべき問題が置かれた環境を正確にモデル化しようとはせずに、目標の達成に必要な環境の側面だけをモデル化したうえで学習するというものです。具体的には、以下のような観点から学習します。

  1. 現在の位置はどの程度よいのか(現状の評価)
  2. どのような行動を選択すべきなのか(選択肢の評価)
  3. 直近に選択した行動は、どの程度よかったのか(選択結果の評価)

以上のような学習プロセスは「現状分かっている情報にもとづいて最善を尽くす」と表現することができ、まさに人間が日々行っている問題解決アプローチだと言えます。こうした学習プロセスに関して、DeepMindの研究チームは「傘をさすことは、降雨のメカニズムを理解するモデル化よりも、濡れずに済むことに役立つ」ようなもの、と述べています。

計画的であるほど、学習効果が高い

MuZeroで採用された計画的な学習では、与えられた環境だけから学習するので学習データを用意する必要がありません。さらには目的を達成するのに役立つ環境の側面からのみ学習するため、事前にゲームのルールを知る必要すらありません。ゲームのルールが完全に分からなくても、どんな行動がゲームの勝利につながるかはゲームプレイを通じて学べます。こうした「学習データなし・ルールの知識なし」の学習こそ、MuZeroの画期的なところなのです。

ゲームのルールに関する情報が不要なMuZeroは、ゲームプレイに関してかつてないほどの汎用性を備えていると言えます。実際、チェス、将棋、囲碁をプレイしたところAlphaZeroと同等のパフォーマンスを発揮したうえに、レトロゲームのテストセットAtari57をプレイした結果、すべてのゲームでハイスコアを更新しました。

研究チームは学習における計画性が学習結果に与える影響を調べるために、計画を立案する時間を変えた複数のMuZeroを使った囲碁のプレイも実験しました。その結果、1手あたりの処理時間を10分の1秒から50秒に増やすと、レーティングが1,000以上あがりました。この上昇は、アマチュアの強豪プレイヤーがトッププロプレイヤーに昇格するのに匹敵します。

さらに計画性と学習効率の関係を調べるために、最善行動の算出に要するシミュレーション回数を変えてパックマンのクローンゲーム『Ms. Pac-Man』(1981年、バリー=ミッドウェイ)をプレイしました。すると、シミュレーション回数が増えるほど、ゲームの上達が早くなることが確認されました。

以上の実験結果から、MuZeroは計画的に学習するほど早く上達し、より強いプレイヤーになると言えます。闇雲に学ぶより計画的に学んだほうがよい結果が得られるのは、人間とAIの両方について当てはまるのです。

動画圧縮に応用?

ゲームプレイAIに関して新たなブレイクスルーをもたらしたMuZeroについて、多数の海外メディアが大きく報じました。例えばBBCの記事では同AIの論文執筆者に名を連ねているDeepMindの筆頭リサーチサイエンティストのDavid Silver氏のコメントが掲載されています。

Silver氏によると、MuZeroの現実世界への応用として新しい動画圧縮手法の発明が取り組まれています。巨大な動画プラットフォームが林立する現在において、インターネット上のトラフィックの多くの部分は動画による通信で占められています。こうした動画通信を効率的に圧縮する方法を発明できれば、通信環境の大幅な効率化が期待できます。実際、MuZeroを使った初歩的な動画圧縮実験を行ったところ、よい結果が得られた、とのこと。2021年には何らかの成果が発表できる、と同氏は語っています。

Venture BeatがMuZeroについて報じた記事では、同AIの限界について言及されています。同AIは確かにかつてない汎用性とハイパフォーマンスを実現しましたが、その実験結果はシングルプレイの完全情報ゲームをプレイした場合に限られています。それゆえ、複数のプレイヤーが外交交渉するゲームである『ディプロマシー』のようなマルチプレイ不完全情報ゲームのプレイに関しては、完全にモデル化できていないのではないか、と指摘されています。

前出のBBCの記事では、イギリス・サウサンプトン大学のコンピュータサイエンス学科教授で、イギリス政府に対してAIに関して諮問する機関「AI Council」のメンバーでもあるWendy Hall教授のコメントも掲載されています。同教授もMuZeroは「大きな前進」をもたらしたと評価するものも、DeepMindは自分たちの研究結果の意図しない結果、もっと言えば悪影響についてはあまり考察していないのではないか、と懸念を表明しています。そのうえで、AI研究開発の推進とその成果が社会に及ぼす影響に関する考察の両方にバランスよく取り組まなければならない、とも語っています。

DeepMindはゲームプレイAIやAIの自然科学への応用に関して、今後も画期的な研究成果を発表することでしょう。そうした成果を正しく評価すると同時に社会への影響を考察するのは、DeepMindのみならずAI業界の関係者全員が果たすべき責務と受け止めるべきでしょう。

参考論文:Mastering Atari, Go, chess and shogi by planning with a learned model

Writer:吉本幸記、Photo by Jon Tyson on Unsplash

RELATED ARTICLE関連記事

データドリブンとモジュール性に貫かれた『BLUE PROTOCOL』のAIフィロソフィー

2021.3.22ゲーム

データドリブンとモジュール性に貫かれた『BLUE PROTOCOL』のAIフィロ...

AIを”嘘つき”に育てるために:「すごろくや祭」AIゲーム対戦ブースレポート

2019.8.13ゲーム

AIを”嘘つき”に育てるために:「すごろくや祭」AIゲーム対戦ブースレポート

【GDC 2019】AIは感動的な物語体験をゲームで表現できるか? GDCに見る最新トレンド

2019.4.17ゲーム

【GDC 2019】AIは感動的な物語体験をゲームで表現できるか? GDCに見る...

RANKING注目の記事はこちら