AIに想像力を与えるために必要なこと：月刊エンタメAIニュース vol.19

2021.7.26先端技術

エンタメにおいても人工知能は日進月歩で進歩しており、新しい研究成果や試みが次々と発表されています。こちらの連載では、過去1か月間、主に海外で公開された注目すべきゲームAIやエンタメAIに関連したニュース、論文などを紹介していきます。

ゲームキャラクターの声優をAIに担当させる技術

3Dグラフィックでデザインされたゲームキャラクターに生命を吹き込む声の演出は、ゲーム体験を豊かにするナラティブを追求する上で欠かせない要素といっても過言ではありません。しかし、台詞の収録やリップシンクは膨大な時間と労力を要する作業です。開発人員が限られた小規模のスタジオや、個人でゲームを制作するインディー開発者にとっては、金銭的なコストも大きな障壁となります。

近年、この問題と向き合うために注目されているのが、AIボイスという分野です。オーストラリアのAI開発会社Replica Studiosは、Unreal Engine専用ツール「MetaHuman Creator」との併用を想定した「AIボイスアクター」を発表しました。その名が示すとおり、ゲーム開発者が3Dグラフィックのキャラクターをデザインする際、声の演出を人間ではなくAIに担当させるためのツールです。現在は早期アクセスの段階で、順番待ちリストへの登録のみを受け付けています。

AIボイスといっても人間の音声を人工的に作り出す従来のテキスト音声合成ではありません。人間が読み上げた台詞の音声データを分析して、イントネーションや発声速度、発音の強弱といった特徴をAIが模倣するような技術です。

現在のベータ版では、あらかじめ収録されたライブラリから、カウボーイやイタリアンマフィアといったテーマごとに発音の特徴が異なるボイスサンプルを選択し、スライドバーで好みのキャラクターボイスへと調整できるようにデザインされています。今後はモーションキャプチャで自分の表情を捉えながら台詞を読み上げることで、AIが表情の変化や唇の動きを自動的にシンクロしながら選択したキャラクターボイスで喋ってくれる機能を追加する予定だということです。

公式サイトにて公開されているサンプル映像では、アニメーションの粗が目立って少々ぎこちない演技に見えてしまいますが、文章を読み上げるだけのText-To-Speech (TTS)と違って、製作者が台詞に込めた感情表現を上手く演出できています。

7月19日からオンラインで開催された「Game Developers Conference 2021」（GDC 2021）では、Replica StudiosのCEO、Shreyas Nivas氏がナラティブにおける声の演出の重要性や、AIボイスの正式リリースに向けた今後の展望について熱弁しました。

公式サイト：AI voice actors for Metahuman Creator

AIにイマジネーションという能力を与える技術

人工ニューラルネットワークを用いたディープラーニングの登場によって、AIは特定のタスクにおいて人間を圧倒的に凌駕しましたが、視覚情報の認識能力においては人間をふくむ霊長類には遠くおよびません。

たとえば、わたしたち人間は視覚で物体を認識する際、対象の形状や位置、色、材質といった固有の特性を分割して認識できます。こうした視覚情報を瞬時に一般化することで、それぞれの特性を組み合わせて新しい物体を想像することもできます。これが人間が当たり前のように行うイマジネーションという優れた能力です。

南カリフォルニア大学の研究チームは、International Conference on Learning Representations（ICLR 2021：学習表現についての国際会議）にて、グループ教師あり学習（以下、GSL＝Group-Supervised Learning）という新たなフレームワークを使って人間の想像力をAIで再現する手法を発表しました。

このGSLを使えば、学習対象を交換可能な「Disentangled Representation（もつれのない特徴表現という意味）」に分解し、それを再構築することで新しいサンプルを合成できるようになります。たとえば、赤いボートと青いクルマの画像を学習させることで、赤いクルマの画像が生成できるようになるという具合です。こうした学習手法は、今後人間のように世界を認識できるAI技術を開発する上で、重要な役割を担うことは間違いないでしょう。

論文：Zero-shot Synthesis with Group-Supervised Learning

落書きを一瞬で絵画のようなグラフィックに変換するAI

いまはAIの力を借りて誰もがゴッホやゴーギャンのようなポスト印象派の画家になれる時代です。半導体メーカー大手のNVIDIAは6月23日、ペイントツールで抽象的な線を描いたり塗りつぶしたりするだけで、写実的な地形や風景のグラフィックをリアルタイムで生成できるアプリケーション「NVIDIA Canvas」を発表しました。

「NVIDIA Canvas」には、敵対的生成ネットワーク（GAN＝Generative Adversarial Networks）というAIアルゴリズムが使われています。GANは生成ネットワークと識別ネットワークから構成されており、2つのネットワークは常に相反する目的を持って学習するように設計されています。

「NVIDIA Canvas」では、ユーザーが描いた線や塗りつぶした領域を生成ネットワークが地形イメージへと変換し、一方で識別ネットワークが現実的なイメージなのかどうかを判定します。たとえば池や湖が生成された場合、水面が光を反射しているかどうかを確認し、条件を満たしていなければ改善するように命令を送るといった具合です。

もともとは同社の研究チームが2019年に披露したペイントアプリ「GauGAN」（ゴーギャンの名前とGANをかけた造語）のデモとして生まれた技術で、当時は世界中のクリエイターによって50万枚を超える作品が、サービス提供からわずか1か月で生み出されたことで大いに脚光を浴びました。「NVIDIA Canvas」は開発者支援プラットフォーム「NVIDIA Studio」の一部として提供されており、現在はベータ版が無料でダウンロードできます。

公式ブログ：As Fast as One Can Gogh: Turn Sketches Into Stunning Landscapes with NVIDIA Canvas

AIモデレーターの導入を見据えたDiscordの企業買収

オンラインの嫌がらせを検知するためのAIツール開発を手がけるSentropyは14日、無料通話アプリを提供するDiscordへの事業売却を、公式声明文にて発表しました。

Sentropyは、Twitterユーザーにとって有害な情報をAIで検知する「Protect」というツールを2020年から提供してきたスタートアップ企業です。今回の買収を機に、これまでのサービスを一部停止し、急速にユーザーベースを拡大していくDiscordがより安心して利用できるツールへと進化する手助けをしていくということです。

Discordは、SkypeやTeamSpeakに並ぶVoIPソフトウェアとして、2015年からサービスが始まりました。当初は主にTwitchをはじめとしたゲームコミュニティで愛用され、Discordの機能をゲーム内に組み込めるAPIが導入されるなど、ゲーマーのためのボイスチャットツールとして普及した背景があります。その後、2020年にブランドイメージを変更し、現在では業界を問わず万人のためのコミュニケーションツールを目指して発展を続けています。

Discordを利用するユーザーはすでに2億5,000万人以上と報告されており、Discord内で企業やユーザーが展開しているコミュニティは1,900万件に上ると言われています。それらすべてのモデレーションを人間だけで担うには限界があります。Sentropyの経験と実績を吸収することで、あらゆるコミュニティに向けたコミュニケーションツールとして、Discordがより堅固な地位を築いていくことが期待されます。

公式声明：Sentropy x Discord: A Safer Tomorrow

Writer：Ritsuko Kawai / 河合律子、Image by NVIDIA