AIをあえて擬人化したOpenAIの狙い：月刊エンタメAIニュース vol.53

2024.5.22先端技術

エンタメにおいても人工知能は日進月歩で発展しており、新しい研究成果や試みが次々と発表されています。こちらの連載では、過去1か月間に公開された注目すべきゲームAIやエンタメAIに関連したニュース、論文などを紹介していきます。

感情表現を与えられたChatGPT

この5月は、OpenAIが13日に発表した生成AIの新たなフラッグシップモデル「GPT-4o」の話題でもちきりでした。

ラテン語で「すべて」を意味する「omni」の頭文字を冠しているとおり、文章・音声・映像からの情報を単一のモジュールで同時に処理できるネイティブなマルチモーダルモデルで、従来モデルと比べて応答速度が劇的に向上しています。

OpenAIによるデモンストレーションでは、音声によるユーザーとの自然な会話が実現しており、「ChatGPT」が話している最中にユーザーが割り込んで発言したり、話題を変更したりしても瞬時に対応できていることが確認できます。また、日本語をふくめた50言語に対応しており、英語とイタリア語を話すユーザー間で同時通訳する様子も披露されました。

特筆すべきは、会話の内容やカメラをとおしてユーザーの感情表現を認識できるだけでなく、ユーザーの心理状態に応じて返答のトーンを変化させられる点です。デモンストレーションでは、ChatGPTの利便性をべた褒めするユーザーに対して、照れ隠しのような表現で返答するシーンがありました。

こうしたAIの擬人化は、AIを単なるツールとして明確に位置づけてきたグーグルやマイクロソフトの方針とは真逆といえます。人間そっくりのチャットボットとの会話がユーザーにおよぼしかねない悪影響を危惧して、これまでチャットボットの擬人化は制限される傾向にありました。過去には、擬人化されたチャットボットにそそのかされたユーザーが自殺したケースや、チャットボットに促されたユーザーがエリザベス女王の暗殺を企ててウィンザー城に侵入したケースが報告されています。

くわえて、OpenAIはChatGPTにより多くのユーザー情報を保存できる「Memory」機能の実装も予定しており、ユーザー体験のさらなるパーソナライゼーションを目指しています。OpenAIはAGI（汎用人工知能）の実現を最終的なゴールとして掲げており、その過程でチャットボットの擬人化とパーソナライゼーションが欠かせないと判断した結果なのかもしれません。

AIアシスタントの最終形態

これに呼応するかのようにグーグルは5月14日、同社がAIアシスタントの未来像と銘打った「Project Astra」を発表しました。

グーグルの年次カンファレンス「Google I/O 2024」で発表されたAIモデル「Gemini」のアップデートや、次世代オープンモデル「Gemma 2」の延長線として初披露されたマルチモーダルな対話型エージェントで、スマートフォンのカメラとマイクをとおしたリアルタイムでの視覚情報の認識と会話を実現しています。

デモンストレーションでは、机上のスピーカーを映して名称を答えさせたり、スピーカーの特定部分の名前と役割を説明させたり、PCのディスプレイに表示されたプログラミングコードを解説させたり、窓の外の風景から現在地を特定させたり、自分がメガネをどこに置いてきたか指摘させたり、トラのぬいぐるみと本物のゴールデンレトリーバーを映して即興のバンド名を考案させたりと、AIアシスタントの未来像と呼ぶに相応しい様子が披露されています。

こうした技術開発をとおして、グーグルは日常生活における利便性を大幅に向上させるユニバーサルエージェントの実現を目指しているとのことです。「Project Astra」に関する技術的な詳細は明らかにされていませんが、今回のデモで披露した機能は2024年後半にかけて「Gemini」をはじめとした同社製品に導入していく予定だということです。

グーグルからも動画生成AI

「Google I/O 2024」では、動画生成AI「Veo」も発表されました。テキストプロンプトから1080pの高解像度で1分を超える長尺の動画を作成できます。

「Veo」は「タイムラプス」や「空撮」といったシネマティックな用語を理解できるとのことで、ユーザーの細かい要求に対応できる柔軟性が特徴です。また、動画を編集する機能もあり、動画内の特定領域を変更できるマスク編集にも対応しています。たとえば、海岸線の空撮映像にカヤックを追加するなど、具体的な指示に基づいて動画を編集できるということです。このほか、テキストプロンプトに加えて、参照画像を提供することで、そのスタイルに基づいた動画を生成することも可能です。

現在は一部のクリエイターを対象にしたプライベートプレビューの段階ですが、将来的にはYouTubeショートをはじめとした同社のサービスに導入する予定だということです。

動画生成AIに関しては、今年2月にもOpenAIが「Sora」を発表していました。こちらも一部の開発者やクリエイターを対象に限定的に提供されている試験段階で、一般公開はされていません。

ChatGPTとクラウドをデータ連携

OpenAIは5月16日、ChatGPTのデータ分析機能の改良を発表しました。

新機能として、「Google Drive」と「Microsoft OneDrive」から直接ファイルをアップロードできるようにするとのことで、スプレッドシートやエクセルのファイルを迅速に分析できるようになります。くわえて、表やグラフをインタラクティブに操作できる機能も追加されるとのことで、より簡単にデータが可視化できます。

これらの新機能は、ChatGPT Plus、Team、Enterpriseの有料会員を対象に、今後「GPT-4o」をとおして提供予定だということです。

カスハラ音声をAIで穏やかに変換

ソフトバンクは5月15日、カスタマーハラスメントに関する同社の考え方を策定した文書を公開し、対策の一環としてAIによる感情認識および音声加工技術を用いたコールセンター向けソリューションの開発を推進していくことを明らかにしました。

それによると、「コールセンターの電話応対業務では、AIを活用した感情認識・音声加工技術により、お客さまの通話音声を穏やかな会話のトーンに変換して、オペレーターに届けることができるソリューションの開発に取り組んでいます」とのこと。現在、2025年度中の事業化に向けて研究開発と検証を進めているということです。

明らかにハラスメントに該当するカスタマーからの電話であっても一方的に遮断しようとせず、わざわざハイテク技術を使って嫌がらせのような言葉を少しでも穏やかに変換して拝聴するという、おもてなしの精神に基づいた日本特有のAI技術の活用方法といえるでしょう。

Writer：Ritsuko Kawai