「ラップするモナリザ」を出力する話者動画生成モデルの仕組みと課題を解説

2024.5.30アート

最近のグラフィックAIのトレンドのひとつとして、人物が写った1枚の画像を使って動画を生成する人物画像動画化モデルと呼べるジャンルがあります。このジャンルには、モリカトロンAIラボで紹介したダンス動画生成AIがあります。こうしたなかMicrosoftアジアの研究チームは2024年4月16日、1枚の人物画像と音声クリップからその人物が表情豊かに話したり歌ったりする動画を生成する話者動画生成モデルVASA-1を発表しました。本稿ではこのモデルと類似モデルを解説することを通して、人物画像動画化モデルの最前線を明らかにします。

参考記事：アニメキャラやテキストプロンプトにも対応。ダンス動画生成AIの最前線

視線や感情まで制御可能

VASA-1のアーキテクチャは、学習データから顔と音声、さらには顔の動きに関する特徴を個別に抽出したうえで、そうした特徴をデータとしてまとめた潜在空間を構築します。この潜在空間を利用して、顔画像を生成する拡散モデルを訓練します。訓練された拡散モデルは、1枚の画像と音声クリップが入力されると、それらの特徴を抽出して1枚ずつ顔画像を生成します。この画像生成時には音声と連動した顔の動きを加味して少しずつ異なった画像を生成するので、最終的に動画として出力されます。

VASA-1の学習データには、YouTubeで公開されていた動画から話している有名人のシーンを収集したVoxCeleb2を使いました。このデータセットには6,112人の有名人の100万語以上の発話シーンが収録されていますが、同データセットの論文によると、有名人の国籍はアメリカ、イギリス、ドイツ、フランスといった欧米主要国で半数以上を占めているので注意が必要です。

以上のように開発されたVASA-1を用いて生成された動画は、以下のようになります。以下のサンプル動画の左下隅に表示された静止画が入力となった人物画像となります。これらの動画を見るとわかるように、性別や人種を問わずに表情豊かな話者動画を生成しています。

サンプル動画：https://vasavatar.github.io/VASA-1/video/l5.mp4

https://vasavatar.github.io/VASA-1/video/3.mp4

VASA-1は顔の外見上の特徴だけではなく、視線、カメラからの距離、表情に関する特徴も抽出して動画に反映します。以下のサンプル動画は上から順に視線の向きを変えて生成したもの、カメラからの距離を変えたもの、表情を変えたものとなります。各動画における左上のアイコンがそれぞれの特徴の設定となります。なお、表情に関しては発話と連動して学習する仕様なので、「顔は笑っているが、声は怒っている」というような表情と音声が一致しない動画は生成できないという制限があります。

サンプル動画：https://vasavatar.github.io/VASA-1/video/female_gaze.mp4

https://vasavatar.github.io/VASA-1/video/female_scale.mp4

https://vasavatar.github.io/VASA-1/video/male_emotion.mp4

高い汎化性能があるものも、識別技術は未確立

前述したようにVASA-1は有名人の発話シーンを学習しているので、絵画やイラストにおける顔画像からはうまく動画を生成できないように思われます。ところが、以下のサンプル動画のように絵画やイラストであっても表情豊かに話者動画を生成できます。さらには、英語だけではなく中国語の音声クリップを入力しても問題なく動画を生成できるのです。こうした結果から、同モデルは高い汎化性能をもっていることがわかります。

サンプル動画：https://vasavatar.github.io/VASA-1/video/o1.mp4

https://vasavatar.github.io/VASA-1/video/o2.mp4

https://vasavatar.github.io/VASA-1/video/o5.mp4

先行モデルとVASA-1の定量的性能比較も実施されました。比較対象となったのはMakeItTalk、Audio2Head、SadTalkerであり、比較観点は音声と唇の同期に関する忠実度（S_C）と特徴距離（S_D）、音声と顔全体の動き（ポーズ）との同期（CAPP）、顔全体の動きの激しさ（ΔP）、動画品質（FVD）としました。比較結果は以下の表のようにまとめられ、すべての観点においてVASA-1（「Ours」と表記）が最高性能でした。なお、S_Dのみ値が小さいほど高性能となります。

以上のようなVASA-1の進化の方向性として、頭部だけではなく上半身さらには全身を生成するモデルの開発が考えられます。こうした進化が実現すれば、ジェスチャーやボディランゲージを交えた話者動画が生成できるようになるでしょう。また、髪の毛や衣服のような柔らかいオブジェクトの動きの生成も挙げられます。この生成ができるようになれば、例えば髪をかき上げながら話す話者動画が可能となるでしょう。

VASA-1の応用範囲は、教育動画の制作、コミュニケーションツールの品質向上など多岐に及びます。その一方で、リアルな偽動画の制作に悪用されるリスクもあります。こうしたリスクにより、同モデルのソースコードはまだ公開されていません。同モデルを開発した研究チームによると、同モデルで生成した動画には「識別可能な人工物」が含まれているので、こうした識別可能な情報を特定する技術が確立されれば、同モデルが生成した動画かどうかを判別できるようになると考えられます。識別技術が完成すれば、同モデルは公開されるかもしれません。

2つの顔を合成するモデルも登場

VASA-1が発表されて間もない2024年5月6日、中国・上海大学らの研究チームも話者動画生成モデルAniTalkerを発表しました。このモデルも1枚の顔画像と音声クリップから話者動画を生成しますが、VASA-1と異なったアーキテクチャとなっています。AniTalkerとVASA-1の大きな違いは、学習過程にあります。

以下の画像が、学習過程におけるAniTalkerのアーキテクチャとなります。同モデルの学習においては学習対象となる動画からランダムに2枚の画像を選んだうえで、それらに共通する特徴を抽出するアイデンティティエンコーダーと、それらにおける差異から顔の動きを抽出するモーションエンコーダーを訓練します。そして、このふたつのエンコーダーを統合して画像レンダラーを構築します。

2枚の画像の共通点と差異を利用する訓練アーキテクチャを採用した結果、AniTalkerは1枚の顔画像とこの画像と顔の異なる人物が話す動画を入力として、これらの入力を合成した動画を生成できるようになりました。以下のサンプル動画は、物理学者のアイザック・ニュートンの肖像画と男性が話している動画を合成したものです。

サンプル動画：https://x-lance.github.io/AniTalker/videos/2_video_driven_cross_identity.mp4

AniTalkerにはふたつの制限事項があります。ひとつめは複雑な背景の顔画像を入力した場合、生成動画に不整合が生じる可能性があります。ふたつめは顔が大きな角度をもって動くような場合には、顔の輪郭がぼやけることがあります。

AniTalkerのソースコードはGitHubに公開されています。同モデルの利用に関しては、プロジェクトページ下部にある「倫理的配慮」という項目で説明されています。その説明によれば同モデルを利用する前に、利用する組織は倫理的ガイドラインを統合することなどが重要とされ、生成されたコンテンツには可視あるいは不可視の電子透かしを埋め込むことが推奨されています。

VASA-1をはじめとする話者動画生成モデルは、これからも類似あるいは進化したモデルが開発されると予想されます。こうしたモデルを活用すればクリエイティブな動画を効率的に制作できる一方で、悪用される可能性がますます高まることでしょう。悪用のリスクに関しては電子透かしや生成動画識別技術の確立によって抑制できますが、もっとも重要なのはそもそも悪用しないというユーザのモラルではないでしょうか。

Writer：吉本幸記