モリカトロン株式会社運営「エンターテインメント×AI」の最新情報をお届けするサイトです。

TAG LIST
機械学習ディープラーニングCGCGへの扉GANモリカトロンAIラボインタビューニューラルネットワーク三宅陽一郎強化学習CEDEC2019スクウェア・エニックス音楽ゲームAIQA深層学習シナリオGDC 2019ボードゲームVFX映画SIGGRAPH遺伝的アルゴリズムデバッグ不完全情報ゲームVRメタAIキャラクターAIファッションルールベースAIと倫理グーグルDeepMind月刊エンタメAIニュースJSAI2020人工知能学会イベントレポートOpenAIガイスター畳み込みニューラルネットワークロボットビヘイビア・ツリーNVIDIAGDC SummerCEDEC2020モリカトロンマルチエージェントナビゲーションAI小説敵対的生成ネットワークAlphaZero中島秀之アートtoioGoogle自動生成研究ディープフェイクCNNメタデータCM倫理Amadeus Code音声認識eSportsシーマン齊藤陽介お知らせ水野勇太サルでもわかる人工知能ワークショップ知識表現IGDAどうぶつしょうぎマシンラーニングクラウドマイクロソフト完全情報ゲーム藤澤仁宮路洋一StyleGANプロシージャルスポーツフェイクニュースDARPAALife人工生命オルタナティヴ・マシンサウンドスケープASBSぱいどんTEZUKA2020AI美空ひばり手塚治虫汎用人工知能Electronic ArtsFacebookマーケティングApex LegendsNinjaTensorFlowゲームTENTUPLAYMARVEL Future Fightタイムラプスバスキアブロックチェーン通しプレイ階層型強化学習WANNOpenAI Five竹内将本間翔太馬淵浩希岡島学映像セリア・ホデントUXピクサー認知科学ゲームデザインAdobeLUMINOUS ENGINELuminous Productionsパターン・ランゲージ作曲ビッグデータアストロノーカ模倣学習テストプレイナラティブFPSマルコフ決定過程eスポーツスタンフォード大学パラメータ設計テニスバランス調整レコメンドシステム対話型エージェント協調フィルタリング人狼知能AmazonエージェントシミュレーションロボティクスDota 2ソーシャルゲーム眞鍋和子淡路滋グリムノーツゴティエ・ボエダGautier BoedaJuliusTPRGバーチャル・ヒューマン・エージェントクーガー石井敦茂谷保伯森川幸人成沢理恵マジック・リープMagic Leap Oneノンファンジブルトークン里井大輝GEMS COMPANY初音ミク転移学習デバッギングアニメーションリップシンキングUbisoftUbisoft La Forge北尾まどか将棋ナップサック問題ジェイ・コウガミ音楽ストリーミングSpotifyReplica Studioamuse5Gクラウドゲーミング和田洋一Stadia対話エンジン斎藤由多加シーマン人工知能研究所ゴブレット・ゴブラーズSIGGRAPH 2019ARAIりんなアップルiPhoneカメラAIGraph環世界予期知能ウェイポイントパス検索ドラゴンクエストPAIR画像認識アルスエレクトロニカ2019DeNA逆転オセロニア長谷洋平奥村エルネスト純齋藤精一高橋智隆ロボユニ泉幸典ロボコレ2019ぎゅわんぶらあ自己中心派意思決定モデルウロチョロス理化学研究所教育SIGGRAPH ASIAHTN階層型タスクネットワークLEFT ALIVE長谷川誠Baby Xロバート・ダウニー・Jr.YouTubeSFThe Age of A.I.レコメンデーションソニーテンセントMOBA人事研修mynet.ai人工音声プレイ動画NBAドローン群知能ウィル・ライトシムシティシムピープルレベルデザインSporeデノイズ画像処理GPUCPUGMAITRPGウィザードリィAI Dungeon西川善司サムライスピリッツゼビウスストリートファイター栗原聡山野辺一記大里飛鳥マンガ13フェイズ構造手塚眞不気味の谷Oculus Quest生体情報写真照明山崎陽斗立木創太松井俊浩スパーシャルAIGPT-3GameGANパックマンソサエティ5.0SIGGRAPH 2020DIB-R3D広告

OpenAIが無償提供するゲームプレイAI開発環境まとめ

2020.5.29ゲーム

OpenAIが無償提供するゲームプレイAI開発環境まとめ

汎用人工知能(AGI)の実現を目指しているNPO団体OpenAIは、強化学習AIの研究を重視していることで知られています。与えられた環境との相互作用を繰り返しながら、特定の課題を達成するのに最善な選択肢を探索する強化学習AIの研究開発には、ゲームのクリアを目標とするゲームプレイAIの開発がうってつけです。こうしたことから、同団体は多数のゲームプレイAI開発環境を無償提供しています。この記事では、そんな開発環境を紹介していきます。

ミニゲームを集めたスタンダードなOpenAI Gym

OpenAI Gym」は、『パックマン』のようなミニゲームを集めたゲームプレイAI開発環境です。同環境のゲームライブラリーには、レトロゲーム機Atari2600でプレイ可能なゲームを集めた「Atari」、2D物理エンジン「Box2D」で構築されたゲームを集めた「Box2D」、振り子や傾斜上の移動体の制御を学習できる「Classic control」、3D物理エンジンで再現した物理現象を学習できる「MuJoCo」、そしてロボットアームの動作を再現した「Robotics」等が用意されています。同環境は、さまざまなゲームプレイ環境をふくんでいることから、強化学習AI開発環境の定番という評価を得ています。

Open AI Gymはオープンソースなので、OpenAI以外の団体あるいは個人が流用して新しいゲームプレイAI開発環境を作ることも可能です。そうした開発環境は「サードパーティ環境」としてまとめられています。ゲームプレイAIの開発という本来の用途から離れて、AIの長期運用をシミュレートするためにGoogleが流用開発した環境「ML-fairness-gym」といったものもあります。

Open AIは、ゲームプレイAIの性能を測定するベンチマークとなるゲームセット「Procgen」も公開しています。このセットに収録されているゲームは、同団体が独自に開発したものです。

Open AI Gym

論文:OpenAI Gym

GitHubレポジトリ

利用のあたっての資料

安全性を重視したSafety Gym

強化学習AIは、時として目標を達成するためにあえて危険な選択肢を実行することがあります。例えば、目的地に最短時間で到着するまでに車線をはみ出したらペナリティを与えるという自律自動車を制御するAIを開発する環境を構築する場合、ペナルティの設定が小さければ、AIはあえて車線をはみ出す走行コースを選択する可能性があります。このような危険な選択肢を巧妙に考慮したAIを現実の世界に実装すると、大きな問題が生じることは想像に難くありません。

Safety Gym」は、以上のような危険な選択肢を実行することのないAIを開発するための環境です。この環境は、産業用ロボットや自律自動車を模した移動可能なオブジェクトとそのオブジェクトが取り組むミニゲームライクなタスク環境から構成されています。タスクには、小さなオブジェクトを所定の位置まで運ぶ、所定の位置まで移動する、というものがあります。

Safety GymのAIが通常の強化学習AIと決定的に異なるのは、安全性に関する制約が課せられている点です。具体的には、AIが何らかの危険な選択肢を実行する度にペナリティ設定を上昇させて、危険な選択肢が目標達成に関して有利に働かない制約を課したのです。

Safety Gymは、人間が強制的に禁止ルールを課すのではなく、AIが自律的に安全性を学習する仕組みを考察するのに役立つ環境と言えるでしょう。

Safety Gym

論文:Benchmarking Safe Exploration in Deep Reinforcement Learning

GitHubレポジトリ

MMORPGのオープンワールドを模したNeural MMO

Open AIは、ミニゲームよりも複雑で大規模な学習環境としてMMORPGのオープンワールドのような「Neural MMO」も提供しています。

Neural MMOは最大100個のサーバと接続可能であり、それぞれのサーバには128のゲームプレイAIの情報を保存できます。同環境内にランダムに生成されたAIは、最大で1億ターンのあいだ行動できます。環境内には森、草原、水場、岩場があり、森からは食料を、水場からは水を採取できます。AIは、採取した食料と水を消費して生き延びることができます。ただし森から食料を採取すると、一定ターン採取できなくなります。

Neural MMO内に生成されたAIは、生き残るために水と食料を採取したり、それらを探索したりします。また、ほかのAIから水と食料を奪うために戦闘することもできます。戦闘手段は、打撃攻撃、遠隔攻撃、魔法攻撃から選ぶことができます。さらに生き残ることを通して得られた学習内容を共有できる「種族」という概念も設定されています。

Open AIの研究チームがNeural MMOを使ったシミュレーションを実行したところ、ゲームプレイAIは生物学の概念である「ニッチ」で説明されるような挙動を示したのでした。具体的には、世界が十分に広く食料も潤沢である場合には、AIは戦闘を避けて食料の探索を選択しました。また、同じ種族のAIから積極的に学習することも確かめられたのです。

Neural MMOはオープンソースとして提供されているので、利用者は自身の目的に合わせて同環境を変更および拡張することができます。

Neural MMO

論文:Neural MMO: A Massively Multiagent Game Environment for Training and Evaluating Intelligent Agents

GitHubレポジトリ

かくれんぼ環境Multiagent emergence environments

以上に解説してきたゲームプレイAI開発環境は、AIが実行できる選択肢は無数にあるものも、選択肢の種類自体は(移動、攻撃のように)限定されたものでした。こうした環境のリリース後、Open AIはゲームプレイAIが選択肢自体を生成することを可能とする環境を公開しました。それが、AIがかくれんぼをプレイする「Multiagent emergence environments」です。

このかくれんぼ環境は、かくれんぼをプレイする複数のAIと、かくれんぼする空間から構成されています。かくれんぼする空間には、動かせない部屋と壁、および動かせるオブジェクトがあります。オブジェクトには立方体の形状をしたボックス、立方体を半分に切って傾斜がついているスロープが用意されています。こうした空間のなかで、AIは隠れるハイダーとハイダーを探すシーカーに分かれてかくれんぼをプレイします。なお、プレイ開始直後にハイダーには隠れるために一定の時間が与えられます。

以上のようなゲーム環境でAIがかくれんぼを繰り返した結果、事前にコーディングしていないにも関わらず、AIはオブジェクトを利用してプレイを有利に進めることを次々と学習したのでした。その学習過程を簡単にまとめると、以下のようになります。

  • ハイダーは、ボックスを使って部屋の出入口をふさぐ「ドアブロッキング」を習得
  • シーカーはドアブロッキングに対抗して、スロープを使ってボックスを乗り越える「ランプ(Ramp)」を習得。
  • ハイダーはランプに対抗して、部屋のなかにスロープを隠してしまう「ランプディフェンス」を習得。
  • シーカーはランプディフェンスに対抗して、ボックスのうえに乗って移動する「ボックスサーフィン」を習得。

かくれんぼのプレイを通じて新規の行動を習得したことが意味するのは、ゲームプレイAIが人間に定めたわけではない新たなアイデアを考案した、ということです。この結果は、ゲームプレイAIの研究が人間のクリエイティビティをも再現できる全般的人工知能の実現に寄与することを示しているのです。

Multiagent emergence environments

論文:EMERGENT TOOL USE FROM MULTI-AGENT AUTOCURRICULA

GitHubレポジトリ

Wreiter:吉本幸記

RELATED ARTICLE関連記事

【GDC 2019】ジレンマを生成し人の心を動かすメタAI

2019.4.18ゲーム

【GDC 2019】ジレンマを生成し人の心を動かすメタAI

AIに不可欠な知識表現とは? IGDAボードゲームAIワークショップをレポート

2019.6.19ゲーム

AIに不可欠な知識表現とは? IGDAボードゲームAIワークショップをレポート

ゲーム運営をディープラーニングでサポートするYOKOZUNA dataの全貌

2019.6.21ゲーム

ゲーム運営をディープラーニングでサポートするYOKOZUNA dataの全貌

RANKING注目の記事はこちら