デジタルツインの浸透がAI開発を加速させる：月刊エンタメAIニュース vol.23

2021.11.24先端技術

エンタメにおいても人工知能は日進月歩で発展しており、新しい研究成果や試みが次々と発表されています。こちらの連載では、過去1か月間、主に海外で公開された注目すべきゲームAIやエンタメAIに関連したニュース、論文などを紹介していきます。

デジタルツインというAIのゆりかご

この1か月は、11月9日に開催されたNVIDIAのテクノロジーカンファレンス「NVIDIA GTC」が話題の中心でした。なかでも、仮想空間におけるリアルタイムシミュレーションプラットフォーム「NVIDIA Omniverse」に追加された新機能の数々は、デジタルツインやメタバースといったキーワードが社会構造の根幹へ向かって浸透し始めたいま、まさに時代の変遷を象徴する技術といえます。

「Omniverse Avatar」は、音声認識や自然言語処理、コンピュータビジョン、レコメンデーションエンジンといった同社の既存技術を駆使したAIアシスタントの生成を可能にします。音声認識には複数言語に対応したソフトウェア開発キット「NVIDIA Riva」、自然言語処理には大規模言語モデル「NVIDIA Megatron」、レコメンデーションエンジンにはディープラーニングのフレームワーク「NVIDIA Merlin」、そしてコンピュータビジョンにはビデオ分析に用いられるフレームワークの「NVIDIA Metropolis」が活用されています。

「Omniverse Replicator」は、物理的にシミュレーションされた合成データを生成するためのエンジンです。ディープニューラルネットワークの学習用データを作る際に強力なツールとなります。今回の発表では、このエンジンを基に開発された2つのアプリケーション「NVIDIA DRIVE Sim」と「NVIDIA Isaac Sim」も披露されました。前者は自律走行車のデジタルツインを、後者はマニピュレータロボットのデジタルツインをホストするための仮想空間を構築します。これにより、現実空間では膨大な時間と莫大な資金を要してきた試験走行や動作確認といった開発プロセスが大幅に加速することが期待されます。

自動車メーカーのBMWはすでに「NVIDIA Omniverse」によって構築されたデジタルツイン工場を導入しており、仮想空間におけるシミュレーションによって生産ラインを最適化しています。また、通信機器メーカーのエリクソンは都市全体のデジタルツインを使ったシミュレーションによって、5G基地局や通信アンテナの設置場所を最適化しています。仮想空間におけるシミュレーションだからこそ、電波の伝搬や反射、強度をレイトレーシング技術によって可視化できるという利点があります。

このほか、サプライチェーンにおける物流の最適化を支援するために同社が公開したソフトウェア「NVIDIA ReOpt」のデモンストレーションでも、ワークフローのシミュレーションに「NVIDIA Isaac Sim」が使われています。デジタルツインやメタバースという概念は、いまやAI技術の発展と応用に欠かせない存在になりつつあります。

AIが皿洗いをこなすために必要な条件

長きにわたって人類は食事の支度や食器の片付け、整理整頓を手伝ってくれるロボットの実現を夢見てきました。こうした家庭用ロボットの実用化には、ロボットが物理的に世界と接するための身体の壁と、ロボットを取り巻く世界を認識するための知能の壁が立ちはだかります。そして、これら2つを前提条件としてさらに越えなければならない壁が、安全かつ効率的にタスクをこなすための手順をいかに学習させるかという課題です。

たとえば、人間は使い終わった食器を洗う際、使用済みの食器のみを流し台に運んで蛇口から水あるいはお湯を出し、スポンジと洗剤を手に取って汚れを浮かせて洗い流すという行程を、複雑な思考なしで感覚的に実行できます。それはすべてのオブジェクトが有する用途や手順といったコンテキストを理解し、それらを瞬時に組み合わせる能力があるからです。

テキサス大学オースティン校とフェイスブックAIリサーチの研究チームは、AIが人間と同じ視点から物理世界のオブジェクトを認識し、あらゆるタスクを効率的に実行するための強化学習フレームワークを発表しました。前回の記事で紹介した「一人称視点の情報から世界を認識させることを目的としたフェイスブックのAIモデル」を応用した内容で、人間の日常タスクを記録した一人称視点の映像からオブジェクト間の関係性を学習し、それらを基に強化学習における各報酬の値を決定するという仕組みです。

使用済みの食器を洗うというタスクを例に挙げると、流し台の蛇口から水あるいはお湯を出すというアクションは、流し台の中に使用済みの食器が置かれている状態で実行した場合に限り、報酬が高くなるように設定されます。一方で流し台が空、もしくは野菜や本といった洗うべき食器以外の物が置かれている場合は報酬が低くなるという具合です。こうしたフレームワークを用いることによって、完全にランダムな行動を繰り返させるよりも迅速で正確な学習が可能になるというわけです。

働き方改革で増す音声対話AIの需要

10月26日には、サイバーエージェントのAI技術研究組織「AI Lab」が、AIによる人間らしく自然で高度な音声対話の実現を目的とした音声対話AIの研究専門組織「完全自動対話研究センター」を新設しました。音声対話AI領域の研究者30名の新規採用にくわえて、産学連携の強化を進めることで、5年後をめどにAIを相手にした完全自動会話の成立を目指すということです。

同社は過去にも、AI自動音声対話システム「AI Messenger Voicebot」や「コロナワクチンAI電話エージェント」の開発を手掛けており、音声対話AIを活用したサービスの提供に注力してきました。

スマートスピーカーの普及によってAIとの音声コミュニケーションが一般的な行為となった昨今、コールセンターのような音声コミュニケーションによる業務の効率化を目的としたAIによる自動化のニーズはますます高まっています。また、企業や自治体で進む働き方改革の観点からも、音声対話AIの需要はさらに増していくことが予想されます。

万人へ開放された最強の言語AIモデル

人工知能の研究を目的とした非営利団体OpenAIは11月18日、大規模自然言語処理モデル「GPT-3」のAPI利用に人数制限を設けてきたウェイトリストの撤廃を発表しました。これにより今後は誰もがすぐさまAPIを利用できることになります。

GPT-3は「Generative Pretrained Transformer」という名が示すとおり、教師なしTransformerであり、1750億個という膨大なパラメータを持つ言語モデルです。2020年6月からAPIとして外部への提供が始まりましたが、実際に利用できる人数は限られていました。比較的少ない学習で人間と同等の品質で文章を生成できる精度が特徴で、それゆえにフェイクニュースやフィッシング詐欺に悪用される可能性も懸念されてきました。

今年8月には、このGPT-3に数十億のソースコードを学習させることで自然言語からプログラミング言語への変換を可能にしたAIモデル「OpenAI Codex」のAPIも限定的に公開され始めました。

今回の利用制限の撤廃に際しては、ヘイトスピーチやアダルトコンテンツにおけるAPIの使用を禁止するためにガイドラインが更新されています。また、セーフガードとしてAPIにはあらかじめコンテンツフィルターが設けられているということです。誰もがGPT-3へアクセスできるようになったことで、文章の翻訳や要約、創作を支援する多様なアプリケーションの探求がさらに加速することは間違いないでしょう。

Writer： Ritsuko Kawai / 河合律子、Photo by Zack Walker on Unsplash