TiktokのByteDance、1枚の画像と音源からジェスチャーつき人物動画を生成するOmniHuman-1を発表

2025.2.25先端技術

動画共有アプリTikTokを運営するByteDanceは2025年2月、1枚の画像と音源から表情豊かなジェスチャーつき人物動画を生成するAIモデル「OmniHuman-1」を発表しました。同モデルの発表にいたるまでには、同社は先行的な2つのAIモデルを開発していました。本稿は、OmniHuman-1とその先行モデルの解説を通して、同社のグラフィックAI研究の一端を紹介します。

人物画像と音源からリップシンク動画を生成する「Loopy」

ByteDanceが浙江大学と共同で2024年9月に発表したAIモデル「Loopy」は、1枚の人物画像と任意の音源を入力すると、人物画像の人物が音源のように話すリップシンク動画を生成するものです。同モデルのプロジェクトページには同モデルが生成した動画が掲載されており、それらを視聴するとテイラー・スウィフトやアルベルト・アインシュタインが本人とは異なった音声で生き生きと話しています。

Loopyのアーキテクチャは、以下の画像のように3つのモジュールから構成されています。

顔の特徴を抽出するモジュール（画像左上の「Appearance」）：顔の特徴を抽出する。さまざまな人物動画によって訓練することで、さまざまなタイプの顔の特徴を抽出できるようになった。
音声の特徴を抽出するモジュール（画像左下の「Audio」）：音声をベクトル情報化すると同時に、（感情の伴った声などの）視覚的情報との関連性の強い音声の特徴を抽出する。
顔と音声の特徴を統合するモジュール（画像右の「Reference Net」および「Denoising Net」）：顔の特徴と音声のそれを統合する。統合処理では、時間幅の異なる2つの処理が実行される。

顔と音声の統合処理では、クリップ間時間レイヤー（Inter-Clip Temporal Layer）とクリップ内時間レイヤー（Intra-Clip Temporal Layer）というモジュールの処理が実行されます。前者は生成動画において特徴が時間的一貫性を持つような処理を実行し、後者は各フレームにおける特徴を抽出する処理を実行して、個々のフレームの細部を際立たせます。

Loopyが処理できる画像は、以下の画像のように実写画像だけではなく絵画調やイラスト調、さらには人物の塑像を撮影したものもふくまれます。

研究チームは、Loopyの性能を4つの従来モデルと比較する実験を行いました。具体的には実写の人物画像やアニメ調のそれなどをふくむ8種類の人物画像に関して、10人の評価者に人物の一貫性や動画の品質などの6項目について、どのモデルが生成した動画がもっとも良いか尋ねました。その結果、すべての画像カテゴリーと評価項目について、Loopyがもとも優れているという回答が得られました。

この実験結果をまとめたのが以下の画像であり、ピンクの箇所がLoopyを表しています。ピンクの面積が広いことは、Loopyがもっとも優れているという回答が多いことを意味しています。

人物画像と音源からリアルなジェスチャーを伴う人物動画を生成する「CyberHost」

Loopyが発表された同時期の2024年9月に公開されたCyberHostは、人物画像と音源を入力すると、音源に合ったジェスチャーをしながら話す動画を生成するモデルです。同モデルのプロジェクトページには、NVIDIAの社長兼CEOであるジェンスン・フアン氏が他人の音声でジェスチャーを伴いながら話す動画や、「ディープラーニングの父」であるジェフリー・ヒントン名誉教授が中国人スピーカーの声で話す動画が掲載されています。

CyberHostのアーキテクチャは、以下の画像のように3つのモジュールから構成されています。

外観の特徴を抽出するモジュール（画像左上の「Image」がある箇所）：人物動画から人物の特徴と動作を学習したモジュール。動作については、身体の要所の動きをとらえた棒人間のようなポーズ情報を抽出する。
音声の特徴を抽出するモジュール（画像左上の「Audio」がある箇所）：音声をベクトル情報化する。
外観と音声を統合するモジュール（画像中央の「Reference Net」および「Denoising U-Net」）：人物の外観および動作と、音声を統合する。統合処理時には顔や手などの複雑な部位に関して、特別に訓練されたモジュールであるリージョンコードブックを活用する。

リージョンコードブックでは、顔や手の特徴を抽出するリージョンコードブックアテンション（以下の画像左上部）と、顔や手の同一性を認識するアイデンティティ識別子というふたつの処理が実行されます。こうした処理を実行することで、従来の画像生成モデルが苦手とする顔や手に関して、一貫性を保ちながら細部まで描画できるようになりました。

手の描画については、明瞭度スコアという描画品質に関するパラメータも導入しました。明瞭度スコアが高いほど、手の描画が細部まで明瞭であることを意味します。こうしたパラメータも活用して、手の描画品質を向上させました。

以下の画像は、1枚の入力画像（もっとも左の「Ref Image」の列）に関するCyberHost（右から2列目の「Ours」）と4つの従来モデルの出力結果を比較したものです。DisCoの出力画像では明らかに手の描画が崩れており、MimicMotionはCyberHostに比べて細部の描画がやや劣っているのがわかります。このようにCyberHostは、従来モデルを凌駕する性能を実現しました。

段階的な学習によってマルチモーダルな入力に対応した「OmniHuman-1」

2025年2月に発表された「OmniHuman-1」は、1枚の人物画像と1つの音源を入力すると、高精度なリップシンクと複雑なジェスチャーを伴った人物動画を生成するAIモデルです。同モデルは言わばLoopyとCyberHostを合わせた複合的上位互換に当たり、その性能は以下のYouTube動画を視聴するとわかります。とくに1つめの楽器を演奏する女性の動画は、動画生成AIが苦手とされてきた人間とオブジェクトの相互作用を正確に再現しています。

OmniHuman-1はマルチモーダルな入力に対応しており、視覚情報のない音声データ、音声のない動画、音声付き動画が活用でき、それぞれの入力に合わせた動画を生成します。こうしたマルチモーダル性を実現するために、同モデルでは以下の画像のようなアーキテクチャを採用しています。

アーキテクチャ画像右側の「OmmiHuman Model」は、OmniHuman-1の動画生成プロセスを示しています。まずは入力画像から、動きの生成にもっとも重要な要素であるポーズの特徴を抽出します（画像の中「Pose」と「Heatmap Feature」）。入力音源からは、音声の特徴を抽出します（「Audio」と「Frame-level Feature」）。抽出された特徴を活用して、多数の画像を連続的に生成することで動画を生成します。動画生成時にテキスト情報も生成されるのですが、この情報は動画に一貫性を持たせるために活用されます。

OmmiHuman Modelの訓練プロセスを表しているのが、アーキテクチャ画像左側の「Ommi-Condition Training」です。同モデルは、Soraのようなテキスト動画生成モデルをマルチモーダル対応できるように訓練して完成しました。こうした訓練では、以下のようなルールが適用されました。

ルール１：モダニティが異なるデータを使って訓練する際、テキストや画像のような動きとは関連性の低いデータから始め、その後、音声やポーズのような動きと関連性が高いデータで訓練する（画像中の「Stage 1」から「Stage 3」）。このような順序で訓練することで、学習を効率化できる。
ルール2：複数のモダリティのデータを活用して訓練する場合、動きとの関連性が低いデータほど重点的に学習する（画像中の「Training Ratio」）。このような設定を行うのは、動きとの関連性が低いデータと高いそれを同時に学習する際、前者の特徴の学習が進まない傾向にあるからである。

以上のように訓練したOmniHuman-1は、前述のLoopyと同様に実写画像だけではなく、2Dアニメ画像や3DCG風画像を入力しても、適切な動画を生成できるようになりました。