1枚の画像から3Dオブジェクトを生成。ワンショット3D生成技術の最前線

2023.11.28先端技術

複数の2D画像から3Dオブジェクトや3Dシーンを生成するAIグラフィック技術であるNeRF（Neural Radiance Fields）について、モリカトロンAIラボは何度か特集記事を公開してきました。最近、ついに1枚の2D画像から3Dオブジェクトを生成する技術がAdobeより発表されました。そこで本稿では、こうした「ワンショット3D生成技術」の最新動向を紹介します。

参考記事：弱点を克服し、さまざまな画像処理と融合するNeRF最前線

3段階の処理によって3Dオブジェクトを生成

Adobeリサーチとオーストラリア国立大学の共同研究チームは2023年11月8日、1枚の2D画像から3Dオブジェクトを生成する大規模再構成モデル（Large Reconstruction Model：略して「LRM」）に関する論文を発表しました。

LRMのアーキテクチャは、以下の3つのモジュールから構成されています。

2D画像からの特徴抽出：1枚の2D画像からその特徴を抽出する。特徴抽出には、MetaのAI研究チームが2021年4月に発表した画像認識技法DINO（self-DIstillation with NO labels：ラベルなし自己蒸留）を活用する。この技法は特徴抽出に優れており、類似した特徴が数値的に近接するようになる。
3次元平面情報の生成：抽出した特徴にもとづいて、2D画像にふくまれたオブジェクトの3次元平面（triplane）情報を生成する。3次元平面情報とは、XY平面、XZ平面、YZ平面の3つの平面に3Dオブジェクトの座標を転写したものである。座標情報に加えて、3Dオブジェクトを描画するカメラ情報も生成する。この情報には、カメラの位置座標と焦点距離がふくまれている。
triplane-NeRFによる生成：3次元平面情報にもとづいて、3Dオブジェクトを生成する。この生成では、triplane-NeRFと呼ばれる技法が使われる。この生成において、3Dオブジェクトの形状に加えて色情報（RGB）と密度が計算される。

以上の処理により3Dオブジェクトを生成するには、2D画像とその画像に対応する3Dオブジェクトをペアにした学習データによる訓練が必要となります。後述するようにLRMの開発にはこのような学習データを大量に用意したのですが、このモデルの開発には明らかにLLM（Large Language Model：大規模言語モデル）の影響がうかがえます。

LRMには、さまざまな2D画像から3Dオブジェクトを出力できる入出力における汎用性が求められます。こうした汎用性は、どんな入力に対しても適切な出力を返すLLMが実現しています。それゆえ、LRMの開発にあたってはLLMのように大量の学習データによって訓練すれば、汎用性を獲得できると考えられるのです。

孔雀も生成できるが制限事項もある

LRMの学習データには、ObjaverseとMVImgNetが使われました。前者はアレンAI研究所らの研究チームが発表した1,000万以上の3Dオブジェクトを収集したデータセットで、日用品からランドマーク、さらには歴史的美術品の3Dオブジェクトがふくまれています。後者は香港中文大学らの研究チームが発表した日用品のような物理的世界に実在するオブジェクトを多数の視点から撮影したマルチビュー2D画像データセットであり、238種類のオブジェクトに関する219,188枚の画像から構成されています。これらの画像には、撮影時のカメラ情報も付与されています。こうしたデータセットを活用して、LRMの学習データとして730,648の3Dオブジェクトとそれに関連した画像を揃えました。

LRMのプロジェクトページには、以下のように2D画像からの3Dオブジェクトの生成事例が掲載されています。「Phone Camera Captured」とはスマホカメラで被写体を撮影した画像からの生成事例、「Generated Images (Adobe Firefly)」とはAdobe Fireflyを使って生成した画像からの生成事例をそれぞれ意味しています。これらの事例から、孔雀の置物の細かい形状やデコレーションケーキの質感を忠実に生成していることがわかります。

LRMの論文には、先行モデルとの比較事例も掲載されています。以下の画像にはLRM生成オブジェクトと、カリフォルニア大学サンディエゴ校が2023年1月に発表したOne-2-3-45が生成したオブジェクトが並べられています。LRM生成オブジェクトのほうが、よりディテールを忠実に生成しています。

もっとも、LRMには生成失敗事例や制限事項があります。そうした事例や事項には4項目あり、失敗事例画像とともに挙げると以下のようになります。

オクルージョン領域（遮蔽されて見えない領域）をふくむオブジェクト生成には、失敗する可能性がある。LRMにおけるオクルージョン領域の3D化ではもっとも正解の確率が高い形状が選択されるのだが、選択された形状が不正解な可能性がある。
入力する2D画像がトリミングあるいはリサイズされている場合、カメラ情報の推論に失敗することがあり、その結果としていびつな3Dオブジェクトが生成されてしまう。
LRMは2D画像内のオブジェクトの3D化に焦点を当てているので、背景やシーン全体の3D化はできない。
視点によって表面が著しく変化する光沢のある金属のようなオブジェクトの生成には対応していない。

3Dガウシアンスプラッティングを活用したモデルも登場

LRMのようなモデルの研究は、最近あいついで発表されています。2023年9月28日には北京大学らの研究チームがDreamGaussianを発表しています。このモデルには、NeRFを改良した技法である3Dガウシアンスプラッティング（3D Gaussian Splatting）が使われています。この技法は、NeRFより高速で3Dシーンを生成するというものです。

DreamGaussianは、以下のような3つの処理を実行して3Dオブジェクトを生成します。

3Dガウシアンスプラッティングによる3Dオブジェクト生成：2D画像あるいはテキストを入力として受けた後、その入力に対して3Dガウシアンスプラッティングを実行して、所望の3Dオブジェクトを生成する。ただし、この段階ではまだ忠実度が低い。
3Dメッシュの生成：以上の処理で生成された出力から3Dメッシュを生成する。この処理では3Dオブジェクトを分割してメッシュ化するローカル密度クエリと、生成されたメッシュにRGB画像を貼り付けるカラーバックプロジェクションを実行する。
UVテクスチャ画像の精緻化：以上のメッシュのRGB画像は低品質なので、高品質化する。具体的にはUVテクスチャ画像にノイズを混入させ、そのノイズを除去する処理を通して所与の画像を高品質にする。

DreamGaussianは、テキストから3Dオブジェクトを生成できる点においてLRMを凌駕しています。以下の画像は、テキスト入力からのDreamGaussianによる生成事例です。

もっとも、生成所要時間はDreamGaussianが2分なのに対して、LRMは5秒と後者のほうが高速です。

以上のように3Dオブジェクト生成技術は、1枚の2D画像から生成できるように進化しています。こうした進化の恩恵をもっとも受けるのは、メタバースとデジタルツインに関するビジネスやコンテンツでしょう。今回紹介した「ワンショット3D生成技術」が普及すれば、グラフィック技術に精通していない個人ユーザでも高品質なメタバースを制作できるようになるかも知れません。

Writer：吉本幸記