OpenAIが無償提供するゲームプレイAI開発環境まとめ

2020.5.29ゲーム

汎用人工知能（AGI）の実現を目指しているNPO団体OpenAIは、強化学習AIの研究を重視していることで知られています。与えられた環境との相互作用を繰り返しながら、特定の課題を達成するのに最善な選択肢を探索する強化学習AIの研究開発には、ゲームのクリアを目標とするゲームプレイAIの開発がうってつけです。こうしたことから、同団体は多数のゲームプレイAI開発環境を無償提供しています。この記事では、そんな開発環境を紹介していきます。

ミニゲームを集めたスタンダードなOpenAI Gym

「OpenAI Gym」は、『パックマン』のようなミニゲームを集めたゲームプレイAI開発環境です。同環境のゲームライブラリーには、レトロゲーム機Atari2600でプレイ可能なゲームを集めた「Atari」、2D物理エンジン「Box2D」で構築されたゲームを集めた「Box2D」、振り子や傾斜上の移動体の制御を学習できる「Classic control」、3D物理エンジンで再現した物理現象を学習できる「MuJoCo」、そしてロボットアームの動作を再現した「Robotics」等が用意されています。同環境は、さまざまなゲームプレイ環境をふくんでいることから、強化学習AI開発環境の定番という評価を得ています。

Open AI Gymはオープンソースなので、OpenAI以外の団体あるいは個人が流用して新しいゲームプレイAI開発環境を作ることも可能です。そうした開発環境は「サードパーティ環境」としてまとめられています。ゲームプレイAIの開発という本来の用途から離れて、AIの長期運用をシミュレートするためにGoogleが流用開発した環境「ML-fairness-gym」といったものもあります。

Open AIは、ゲームプレイAIの性能を測定するベンチマークとなるゲームセット「Procgen」も公開しています。このセットに収録されているゲームは、同団体が独自に開発したものです。

Open AI Gym

論文：OpenAI Gym

GitHubレポジトリ

利用のあたっての資料

安全性を重視したSafety Gym

強化学習AIは、時として目標を達成するためにあえて危険な選択肢を実行することがあります。例えば、目的地に最短時間で到着するまでに車線をはみ出したらペナリティを与えるという自律自動車を制御するAIを開発する環境を構築する場合、ペナルティの設定が小さければ、AIはあえて車線をはみ出す走行コースを選択する可能性があります。このような危険な選択肢を巧妙に考慮したAIを現実の世界に実装すると、大きな問題が生じることは想像に難くありません。

「Safety Gym」は、以上のような危険な選択肢を実行することのないAIを開発するための環境です。この環境は、産業用ロボットや自律自動車を模した移動可能なオブジェクトとそのオブジェクトが取り組むミニゲームライクなタスク環境から構成されています。タスクには、小さなオブジェクトを所定の位置まで運ぶ、所定の位置まで移動する、というものがあります。

Safety GymのAIが通常の強化学習AIと決定的に異なるのは、安全性に関する制約が課せられている点です。具体的には、AIが何らかの危険な選択肢を実行する度にペナリティ設定を上昇させて、危険な選択肢が目標達成に関して有利に働かない制約を課したのです。

Safety Gymは、人間が強制的に禁止ルールを課すのではなく、AIが自律的に安全性を学習する仕組みを考察するのに役立つ環境と言えるでしょう。

Safety Gym

論文：Benchmarking Safe Exploration in Deep Reinforcement Learning

GitHubレポジトリ

MMORPGのオープンワールドを模したNeural MMO

Open AIは、ミニゲームよりも複雑で大規模な学習環境としてMMORPGのオープンワールドのような「Neural MMO」も提供しています。

Neural MMOは最大100個のサーバと接続可能であり、それぞれのサーバには128のゲームプレイAIの情報を保存できます。同環境内にランダムに生成されたAIは、最大で1億ターンのあいだ行動できます。環境内には森、草原、水場、岩場があり、森からは食料を、水場からは水を採取できます。AIは、採取した食料と水を消費して生き延びることができます。ただし森から食料を採取すると、一定ターン採取できなくなります。

Neural MMO内に生成されたAIは、生き残るために水と食料を採取したり、それらを探索したりします。また、ほかのAIから水と食料を奪うために戦闘することもできます。戦闘手段は、打撃攻撃、遠隔攻撃、魔法攻撃から選ぶことができます。さらに生き残ることを通して得られた学習内容を共有できる「種族」という概念も設定されています。

Open AIの研究チームがNeural MMOを使ったシミュレーションを実行したところ、ゲームプレイAIは生物学の概念である「ニッチ」で説明されるような挙動を示したのでした。具体的には、世界が十分に広く食料も潤沢である場合には、AIは戦闘を避けて食料の探索を選択しました。また、同じ種族のAIから積極的に学習することも確かめられたのです。

Neural MMOはオープンソースとして提供されているので、利用者は自身の目的に合わせて同環境を変更および拡張することができます。

Neural MMO

論文：Neural MMO: A Massively Multiagent Game Environment for Training and Evaluating Intelligent Agents

GitHubレポジトリ

かくれんぼ環境Multiagent emergence environments

以上に解説してきたゲームプレイAI開発環境は、AIが実行できる選択肢は無数にあるものも、選択肢の種類自体は（移動、攻撃のように）限定されたものでした。こうした環境のリリース後、Open AIはゲームプレイAIが選択肢自体を生成することを可能とする環境を公開しました。それが、AIがかくれんぼをプレイする「Multiagent emergence environments」です。

このかくれんぼ環境は、かくれんぼをプレイする複数のAIと、かくれんぼする空間から構成されています。かくれんぼする空間には、動かせない部屋と壁、および動かせるオブジェクトがあります。オブジェクトには立方体の形状をしたボックス、立方体を半分に切って傾斜がついているスロープが用意されています。こうした空間のなかで、AIは隠れるハイダーとハイダーを探すシーカーに分かれてかくれんぼをプレイします。なお、プレイ開始直後にハイダーには隠れるために一定の時間が与えられます。

以上のようなゲーム環境でAIがかくれんぼを繰り返した結果、事前にコーディングしていないにも関わらず、AIはオブジェクトを利用してプレイを有利に進めることを次々と学習したのでした。その学習過程を簡単にまとめると、以下のようになります。