ゲームAIをリアルワールドに応用したコネクトームとは何か？

2019.4.17先端技術

ゲームの世界は、それ自体が商業コンテンツであると同時に、リアルワールドに適用する技術やサービスを実験する場としてとらえることもできます。そこで活用されているAIは、司令塔となるメタAIと各キャラクターを制御するキャラクターAIとの連携、さらにはキャラクターAIが環境認識をするために不可欠なナビゲーションAIから成り立っています。

ブロックチェーンとAI、IoT、ロボティクスのソフトウェア開発の技術を持ち、これらを横断的に融合させたサービスを開発しているクーガー株式会社は、ゲームAIをARやディスプレイを介してリアルワールドとつなぐことで、人と協調するバーチャル・ヒューマン・エージェント（VHA）を展開しています。ゲームAIで制御されたエージェントをリアルワールドに持ち出した時、どのような社会実装が考えられるのでしょうか？クーガーCEOの石井敦氏とConnectome社 Exective Directorの茂谷保伯氏にインタビューをし、概要と今後の展望について伺いました。

表情と体を持ち、人と自然に対話するエージェント

——バーチャル・ヒューマン・エージェントやコネクトームとは、どのようなものなのでしょうか？

石井：バーチャル・ヒューマン・エージェントから説明しますね。まずは、こちらの動画を見てください。

こちらのデモはレイチェルという名前のバーチャル・ヒューマンの女性と一緒に廊下を歩いて行くシーンです。奥に僕が立っていますが、画面の中で彼女は僕の存在を認識してぶつからないように避けて歩いているのが分かります。スマホのディスプレイ越しに見ると本当にそこにいるように錯覚しますし、彼女と歩いてそのまま一緒に部屋に入ることもできます。また、バーチャル・ヒューマンは自分たちの視界の中に椅子やドリンクといった物を見つけると、それらについてコメントすることもあります。

——決められたセリフがすべてプログラムされているのではなく、その都度「これはドリンク」「これは椅子」といったことを認識しながら、会話を自動生成しているのでしょうか？

石井：そうです。その場で自動的に作っている部分と、あらかじめ作ってあるテキストを組み合わせて、状況に応じた会話を生成しています。

これはプロジェクターから出力されている等身大のレイチェルです。バーチャル・ヒューマン・エージェントはデバイスを問わずに出力ができ、スマホ画面からスクリーンへ、そして他のデバイスへとシームレスに動くことができます。自分の視覚や聴覚から得た情報を人間のように受け入れて、空間や物体を認識することもできます。リアルタイムで会話もできますし、IoTデバイスともつながっています。通常のAIは末端の処理の自動化をするという形で活用されるため人間がAIに何かをやらせることが多いのですが、バーチャル・ヒューマン・エージェントの場合はAIが人に対して何かをするように頼むこともあります。

例えば、こちらの動画はクーガーのオフィス内の様子をカメラで撮影したものです。三分割した画面右上は会議室で、左と右下はオフィスです。人や物をリアルタイムで認識し、その瞬間に人が立っているのか座っているのかも分かります。会議室内の人が増えると、レイチェルが「会議室にいる人が2人増えたから、ドリンクを持っていけば？」と促します。それに応じた人間のスタッフがオフィスに2つ置かれたドリンクを会議室まで持って行きます。

同じパーソナルアシスタント機能を持つAIでも、スマートスピーカーと大きく異なるのは、顔と体を持っていることです。バーチャル・ヒューマン・エージェントは、感情や意志を示すリアクションを表情やジェスチャーにすることができます。ある実験によると、顔を表示したインターフェースと音声のみのインターフェースとの会話を比較すると、顔を表示した時の方がレスポンスレートも高く、レスポンスタイムも速いという結果が出てきます。

ゲームAIをリアルワールドに適用させる

——それではバーチャル・ヒューマン・エージェントとコネクトームとは、どのような関係なのでしょうか？

石井：コネクトームとは、AI、IoT、AR、ブロックチェーンを組み合わせることでバーチャル・ヒューマン・エージェントを実現するテクノロジープラットフォームの総称です。バーチャルヒューマンエージェントを起点として、あらゆるものがシームレスにつながり、自律的に動いていく世の中を想定しています。

その仕組みについて説明すると、例えば何かしらの状況を理解する際、「これは人である」「これは自転車である」という具合に、答えがひとつしかないケースが多くあります。これらに対してコネクトームでは、機械学習を使って答えを出しています。

ゲームAIも活用しています。例えばキャラクターAIは、ゲームの中にいる仲間のエージェントが、時には自分を心配してくれているように感じさせたり、向かってくる敵のエージェントが本当に自分を殺しに来るようなスリルを演出する役割を担っています。本当にキャラクターが生きているかのように存在して、人のさまざまな感情を喚起させるAIの開発は、ゲーム業界にしかありません。コネクトームではこの技術を活かして、よりユーザーからの共感を得られるようにバーチャル・ヒューマンとユーザーとのインタラクションを設計しています。

石井：バーチャル・ヒューマンのアーキテクチャは、まずIoTを通して、視界や聴覚、触覚などから得られるデータをインプットしていきます。アウトプット手段は、行動や表情などの人間のアクションやIoTデバイスを通した出力、外部のサービスにつなぐなどさまざまです。インプットからアウトプットまで、どのようなフローで処理が行われるかというと、無意識で行われる集中や記憶関連の処理、感情処理、意思決定の順で行われます。パーソナリティは、無意識処理と意思決定の間で必要に応じて行う処理です。

例えば何か物を見つけたと時、人間は「あ、スマホだ」という具合に無意識で反応します。ところが最初の1秒はスマホであることにフォーカスして意識を向けていますが、ずっとそのままでは次の行動できないので、2秒目以降は無意識下で「これはスマホである」と理解するに留めます。バーチャル・ヒューマンも、初めの1秒くらい対象物にフォーカスした後は、そのフォーカスを外すフィルタリングの処理を行います。

エクセプションは突然殴られたり突然水をかけられたりする時に反応する処理です。自分の記憶を検索する時は、セマンティックとエピソディックとテンポラリの3つがあります。セマンティックはネコを見たら意味としてそれがネコだと理解するというものです。エピソディックは理解をしたと同時に、エピソード記憶が動きます。例えばネコと過去に遊んだ楽しい思い出があったとしたら、プレジャーやハッピーといったエモーションが反応します。

ディシジョンは、その時のエモーションとパーソナリティのバランスによって決まります。例えば、ネコがものすごく大好きな人がネコを見て飛び上がるほど嬉しいと思ったとしても、その人のパーソナリティにオフィスの受付という役割がふくまれている場合は、仕事場でそんなにはしゃぐわけにもいきません。エモーションとロール両方のバランスをコントロールしながら意志決定をする必要があります。その部分はビヘイビアツリー上の処理で決定されます。

テンポラリというのは現在からある程度遡った時間までの記憶を格納します。例えば初めて人に会った時、「初めまして」と言った後、5分が経過すると、もう挨拶をしたことはお互い了解しているので、「初めまして」と言う必要はないと理解します。このテンポラリを使った状態で、例えば誰かが「お水をください」言った1分後にまた「お水をください」と言うのを繰り返すと、「何回言っているの？あんたウザいよ」となって、受け手のエモーションがSadやAngryへと移行していきます。

この図のグレーの部分は特定のひとつの答えを持っている所なので、先ほど言った機械学習で処理される部分です。例えば、ボイスをテキストにする処理を行う際、「ko-n-ni-chi-wa」という音声の表記は「こんにちは」に違いありません。そのような処理は機械学習に向いています。

ヒューマンアクションやビヘイビアツリー、パーソナリティなど青緑色になっている部分は、主にゲーム開発で使われているメソッドを使っています。水色の部分は、ヒューマンサイエンスをもとにしたオリジナルのアルゴリズムです。このようにして異なるメソッドを組み合わせることでバーチャル・ヒューマンができ上がっていきます。

バーチャル・ヒューマンの活用は、エンタメはもちろん、今後多様化が予想されるAIアシスタント、さらに自動運転によって変わる車内空間で人とコミュニケーションするキャラクターなどに使われることを想定しています。

デジタルデータを個数限定で販売する、ノンファンジブルトークン

——コネクトームを実装した後は、どのような展開を考えていますか？

石井：この先の展開としては、ディベロッパーやデザイナーたちが自分たちオリジナルのバーチャル・ヒューマンを作れるSDKを無償提供することを計画しています。App Storeのように、彼らが開発したモジュールをユーザー間で取引するコネクトーム・マーケットもオープンする予定です。

そのマーケットでは非代替性を担保するために、ブロックチェーンによるノンファンジブルトークンを実装しようと考えています。デジタルデータはコピーし放題ですが、ノンファンジブルトークンは物質世界と同様に限定された個数のものを取引することができます。例えば、「このバーチャル・ヒューマンは5体しかありません」という設定もできるわけです。そうすることで、デジタルアセットのオーナーシップ部分における課題をクリアすることができます。

茂谷：売り切りモデルであれば、その次の再販があったとしても、そこで得られた収益は、元の販売者やクリエイターに還元されません。しかしブロックチェーンでその履歴を管理して、権利のオーナーシップの管理ができれば、再販を繰り返しても集積をクリエイターに還元するモデルが可能になります。また、公開してすぐには評価されないバーチャル・ヒューマン・エージェントが、将来的にその価値を評価される可能性もあります。

石井：端的に言えばAIは何かを自動化する技術で、ブロックチェーンは何かを証明する技術です。自動化は便利な反面、プライバシーや認証などの部分で危うさをふくむ場合があります。そこをブロックチェーンは補うことができます。一方でブロックチェーンに欠けているスピード感はAIが担保することができます。このようにコネクトームは、それぞれの特性で欠けている部分を補完し合っています。

Source：Stanford University Web:Virtual Human Agent for Smart City,Lecture Videos:Stanford Seminar – Virtual Human Agent for Smart City,Slides:Virtual Human Agent – born from Connectome ,CONNECTOME – How blockchain ensure the reliability of Data and AI

Editor：高橋ミレイ