NVIDIA、画像内オブジェクトのドラッグ＆ドロップ、動きを制御できる動画生成モデルを発表

2025.1.24アート

GPUメーカー最大手のNVIDIAは、AIシステムやグラフィックAIの研究にも熱心に取り組んでいます。そうした研究成果はSIGGRPAHとSIGRRAPH Aisaの採択論文からうかがうことができ、SIGGRAPH Asia 2024でも同社から20本の論文が採択されました。モリカトロンAIラボではSIGGRAPH Asia 2024を特集した記事をすでに公開していますが、本稿ではこの記事では取り上げていないNVIDIA関連論文を3本紹介します。

参考記事：CGへの扉 Vol.69：AIが制作にも研究にも浸透。SIGGRAPH Asia 2024を振り返る

画像内オブジェクトのドラッグ＆ドロップを可能とする「DiffUHaul」

イスラエルにあるテルアビブ大学らと共同研究した「DiffUHaul」は、画像内の任意のオブジェクトをドラッグ＆ドロップできるモデルです。ドラッグしたオブジェクトがあった箇所は、画面全体の整合性を損なわないように背景等が補完されます。

一見すると簡単そうな以上のタスクを遂行するために、DiffUHaulでは以下のような3つのモジュールが実装されています。

BlobGEN：画像内のオブジェクトの位置を識別したうえで、画像全体の構図を認識するモデル。このモデル自体は、NVIDIA研究チームが、機械学習に関する世界規模のカンファレンスICML 2024で発表した。
Gated Self-Attention：BlobGENが識別したオブジェクトから特徴を抽出して、抽出した特徴にもとづいたオブジェクトを生成するモデル。
Soft Attention Anchoring：Gated Self-Attentionが生成したオブジェクトを移動させながら再生成するモデル。移動処理時には、移動時間に応じて画像生成する位置を変化させる。その結果として、視覚的なドラック＆ドロップを実現する。

研究チームは、DiffUHaulと類似した機能をもつ既存AIとの比較実験を行いました。以下の画像が実験結果をまとめたものですが、画像群の1行目がドラッグ＆ドロップ前の画像（黄色の点がドラッグしたい位置）、もっとも下の行がDiffUHaulの出力画像、1行目とDiffUHaul出力行のあいだの行は類似既存AIの出力画像です。これらの画像を見ると、DiffUHaulでは指定した位置にオブジェクトをドラッグできているのに対して、類似既存AIは失敗しているのがわかります。

なお、DiffUHaulの制限事項としてオブジェクトの回転を伴うドラッグ＆ドロップができない、オブジェクトの大きさを変えるリサイズができない、そしてほかのオブジェクトの後ろに隠れるような位置にドラッグ＆ドロップする衝突処理ができない、といったことがあります。

複数のオブジェクトの動きを制御できる動画生成モデル「TrailBlazer」

現在の動画生成モデルにおける研究課題として、動画内オブジェクトの動きの制御や複雑な編集が挙げられます。こうしたなか、NVIDIAとヴィクトリア大学ウェリントンの共同研究チームは、複数のオブジェクトの動きを制御可能な動画生成モデル「TrailBlazer」を発表しました。

TrailBlazerはオープンソースの動画生成モデル「zeroscope」に、キーフレーム制御補完技法を統合することで実現しました。この技法は、動画内の任意のフレームを2つ選択すると、選択したフレーム間の動きが滑らかになるように、フレーム群を自動的に補完する既存技術です。この技術と動画生成を統合した結果、（左右や上下のような）典型的な動きと動く対象の位置を矩形によって指定するテンプレートを選択したうえで、動画の内容を決定するプロンプトを入力すると、そうした設定に沿った動画を出力できるようになりました。

複数のオブジェクトの動きを制御する場合、例えば「黄色い犬と白い猫」が動いている動画を生成する時は、各オブジェクトを個別に生成した後、それらが衝突しないように合成されます。「公園にいる黄色い犬と白い猫」のように背景情報をプロンプトで追加すると、背景が合成されます。背景プロンプトを変えれば、背景が異なった動画が生成されます。

オブジェクト位置を指定する矩形のサイズが変化する設定、例えば小さい矩形が大きい矩形になりながら横に移動するような場合、オブジェクトが画面奥から手前に動いているような遠近法的演出が可能となります。

TrailBlazerは、グラフィック技術では一般的なオブジェクトが別のそれに変化するモーフィングも実現します。例えば「subject（Cat→Dog）」というプロンプトを入力すると、猫が犬に変化しながら動く動画が生成されます。

TrailBlazerにおける動画生成処理自体は一般的な動画生成モデルと変わらないものなので、これらのモデルに見られる制約が認められます。具体的には、以下の画像のように歪んだ形状のオブジェクト（画像では自動車）を生成したり、白黒の体毛ではないパンダが生成されたりします。

以上のような限界があるものも、簡単な操作で生成動画を制御できるTrailBlazerは、専門的スキルがないユーザが意図した動画をAIによって制作する可能性を示しています。

3Dシーン内のオブジェクトを編集できる「QNeRF」

複数の2D画像を素材にして3Dシーンを生成するNeRFはすでに普及している技法ですが、同技法によって生成された3Dシーンを編集する技法はまだ発展途上です。こうしたなかNVIDIAとカーネギーメロン大学らの研究チームが発表したNeRFの発展技法「QNeRF」は、3Dシーンの編集を実現しました。

QNeRFは、生成された3Dシーンに対して、棒人間を使ってポーズを指定したり、長方形などの簡単な3Dオブジェクトで大きさと形状を指定したりすると、その指定にしたがって3Dシーン内のオブジェクトを編集する、というものです。例えば3Dシーン内のスパイダーマンのフィギュアのポーズや、ソファの数あるいは大きさを変えることができます。

QNeRFでは、以下のような3つの処理が実行されています。

画像からの特徴抽出：3Dシーンを生成する過程で生成される2D画像に関して、指定された編集内容を反映した画像の特徴を抽出する（以下の画像「①」部分）。
ノイズの除去と特徴の学習：抽出された特徴からノイズを除去しながら、特徴情報の解像度を上げていく（以下の画像「②」部分）。
特徴のフィードバック：解像度が上がった特徴を画像生成処理に戻すことで、生成処理全体からノイズを減らす。

QNeRFの特徴学習では、9層のレイヤーが用いられます。これらのレイヤーは処理できる解像度が異なっており、処理できる解像度が高いレイヤーに段階的に入力することで、特徴情報の解像度を上げていきます。

研究チームは、QNeRFの出力結果と既存技法のそれを比較する実験を行いました。その結果をまとめたのが、以下の画像群です。「Input Image」が入力された3Dシーン画像、「Input Control」が入力画像におけるポーズ、「Target Control」が出力時のポーズを意味しています。右側の列「Ours」がQNeRFの出力画像とその深度マップを表し、その左側に並んでいる画像群が既存技法の出力結果です。QNeRFが鮮明な画像を出力する一方で、既存技法では輪郭が不明瞭な画像が出力されていることがわかります。

画像生成モデルの一種であるQNeRFは、画像生成モデル全般に認められる制約があります。具体的には、人間の手先のような複雑かつ微細なオブジェクトの画像生成に失敗する場合があり、その結果として不整合な3Dシーンを生成してしまいます。なお、研究チームは今後の課題として、NeRFの後継技法と言えるガウシアンスプラッティングでも3Dシーン編集可能とすることをかかげています。

以上のようにNVIDIAは、グラフィックAIの可能性を押し広げるような研究に継続的に取り組んでいます。SIGGRAPH 2024 Asiaでは動画生成AIや3Dオブジェクト生成に関する論文が多数発表されましたが、2025年のSIGGRAPGHではゲーム生成AIに関する最新研究が披露されるかもしれません。そして、そうした先進的な研究に関して、NVIDIAがその一翼を担うと見て間違いないでしょう。

Writer：吉本幸記