LLM搭載型ARシステムがもたらす物理世界との新しいインタラクション

2024.10.30先端技術

人間とコンピュータのインタラクションの歴史は、コンピュータの進化とともに変遷してきました。テキストだけを処理していた時代にはCUI（Character User Interface）が主流でしたが、画像も処理できるようになるとGUI（Graphical User Interface）がCUIに取って代わりました。そして、現代ではAIを活用したインタラクションが模索されています。本稿では、こうした模索の一形態としてLLMを搭載したARシステムを紹介します。

オブジェクト認識とLLMを統合

Google Researchは2024年10月1日、LLMを搭載したARシステム「XR-Objects」を解説したブログ記事を公開しました。同システムはスマホを活用したAR技術の一種であり、スマホの画面に写ったオブジェクトに各種メニューをオーバーレイするというものです。こうした仕組みにより、同システムのユーザは物理的オブジェクトとの新しいインタラクションを体験できるようになります。

XR-Objectsのアーキテクチャは以下の模式図のように表すことができ、4つの機能から構成されています。

オブジェクト検出（模式図左上）：スマホの画面に写ったオブジェクトは、Googleが開発したオブジェクト識別ツールセットMediaPipeを活用して識別され、オブジェクトの位置特定に使われる矩形領域である2Dバウンディングボックスとオブジェクト名が付与される。
ローカライゼーションとアンカーリング（模式図左下）：前述の2Dバウンディングボックスとオブジェクトの奥行データを視覚化した深度マップ、さらにはCG技術のひとつであるレイキャスティングを活用して、オブジェクトの正確な位置を算出する。算出された位置にもとづいて各種メニューをバブル（泡型のUIパーツ）としてオーバーレイする。
MLLM カップリング（模式図中央上部）：識別されたオブジェクトは、画像認識と自然言語処理を統合したマルチモーダルLLMのPaLIを活用して、レビューや仕様といった詳細な言語的情報を付加する。これらの情報は、後述する各種コマンドから閲覧できる。
コマンドの実行（模式図右側）：ユーザは、スマホに表示されたバブルをタッチするか、音声入力を通じて各種コマンドを実行できる。

実行できるコマンドには、以下のような4カテゴリーにまとめられる7つのアクションがあります。

情報（info）：MLLMから取得した各種情報を提供する。
比較（compare）：画面内に映った複数のオブジェクトをひとまとめにして、MLLMと質疑応答できる。例えば3つの缶ジュースを識別している状況で「どのジュースがいちばんローカロリーか」と質問すると、その回答が得られる。
共有（share）：識別したオブジェクトをほかのユーザと共有できる。
アンカー（anchor）：識別したオブジェクトに対して、メモ、タイマー、カウントダウンを設定できる。

以上のようにXR-Objectsは、従来のARによる物理的オブジェクトとのインタラクションをAIによって進化させています。

チャットボットより高評価

XR-Objects開発チームは、このシステムの有用性を実証するためのテストを実施しました。具体的には、テスト環境として模擬的な食料品店と住宅の一室を用意したうえで、この環境で以下の表にまとめたような12のタスクをXR-ObjectsあるいはGeminiを活用したチャットボットを使って、8人の評価者に実施してもらいました。実施したタスクには、食料品店で「どのソーセージがより低タンパク質か」という質問の回答を探したり、自宅一室で紅茶を淹れる時間を調べたりするものがありました。

以上のようなテストの結果、XR-Objectsを活用した場合、チャットボットを活用した場合に比べて各種タスクの完了までの時間が31%短縮しました。

また、評価者に2つのインタラクションシステムについて、「有益性（Helpfulness）」「娯楽性（Enjoyment）」「満足性（Satisfaction）」「応答性（Responsiveness）」の観点から5段階評価してもらったところ、XR-Objectsの方が肯定的な評価が多いことがわかりました。さらに4カテゴリーのコマンドに関してもその使い勝手を5段階評価してもらった結果、XR-Objectsがチャットボットよりわずかに優れていると判断されました。

XR-Objectsに関する論文では同システムの応用について言及しており、以下のようなユースケースを挙げています。

調理：食材の栄養成分を表示したり、鍋にタイマーを設定したりする。
ショッピング：陳列された商品の詳細情報を表示する。
生産性向上：書籍などの物理的オブジェクトに対して、補足情報を表示する。
IoTコネクティビティ：スマートスピーカーなどの物理的デバイスに対して、UIパーツをオーバーレイ表示する。

以上のユースケースは実用的なコンテキストを重視していますが、XR-Objectsは各種イベントにおける情報提示、ARゲームの新たなUIといったアート・エンタメにも応用できることは明白です。なお、評価テストの参加者たちは、XR-ObjectsによってLLMと物理世界が関連づけられた結果、LLMのハルシネーションが減少したことを指摘しています。この指摘は、AIと物理世界の関連付けの重要性を示唆しています。

今回の研究ではARデバイスとしてスマホを活用しましたが、近未来に登場するかもしれない高性能ARメガネにXR-Objectsを実装した場合、その利便性は一層高まることでしょう。

Llamaを搭載したNianticのARペットアプリ「Peridot」

以上に言及したように、LLM搭載型ARシステムはアート・エンタメにも応用できます。そして、このような応用は、『ポケモン GO』を開発・提供するNianticが実践しています。

Metaが2024年5月22日に公開したブログ記事では、Nianticが開発・提供するARペットと遊べるモバイルアプリ「Peridot」の技術的背景を解説しています。この記事によれば、同アプリに登場するペット「Dot」とユーザのインタラクションには、Metaが提供するオープンソースのLLMであるLlama 2が採用されています。具体的には、ユーザのテキスト入力あるいは音声入力をプロンプトに変換後、そのプロンプトをLlama 2に入力して応答を生成します。この応答からDotの動作を生成することで、ユーザとDotのインタラクションが成立します。このインタラクションにはあえてランダム性を導入することで、Dotをより現実のペットに近づけました。

Peridotは当初モバイルアプリのみでプレイできましたが、2024年4月9日にはApple Vision Pro向け天気アプリ「SunnyTune」にコラボキャラとしてDotが登場し、同年5月9日にはMeta Quest 3向けアプリが公開されました。さらに同年9月18日にはSNSアプリSnapchatが開発・提供するARメガネSpectaclesに対応したアプリ『Peridot Beyond』が公開されました。

ちなみに、2024年9月25日にはMetaが最新ARメガネ「Orion」を発表しました。同製品のインタラクションにはコンテキスト適応型AIが活用されており、ユーザのニーズを予測して反応します。同製品はまだ試作品段階ですが、同社はAI搭載型ARメガネこそがスマホの次に台頭するコンピューティングプラットフォームであると確信しており、その開発を進めています。

以上のようにLLM搭載型ARシステムは、ARメガネに実装されることでその真価を発揮すると考えられます。それゆえ、その実用化にはAIの進化に加えてARメガネの完成も必須となるので、今後1～2年で一般ユーザに提供されることはないと予想されます。しかしながら、このシステムが実用化されたあかつきには、AIは現在より著しく身近な存在になることでしょう。

Writer：吉本幸記