SIGGRAPH 2023で採択されたNVIDIA関連論文ハイライト

2023.7.28アート

GPU開発販売最大手のNVIDIAは、AIグラフィック技術に熱心に取り組んでいることでも有名です。そんな同社の研究成果に関する論文は、CG技術についての世界的カンファレンスSIGGRAPHで毎年多数採択されています。モリカトロンAIラボは昨年、SIGGRAPH 2022における同社の活躍を特集しました。本稿では、昨年に続きSIGGRAPH 2023で採択された同社関連論文の一部を紹介します。

参考記事：SIGGRAPH 2022で採択されたNVIDIA関連論文ハイライト

テキスト画像生成AIの改善

SIGGRAPH 2023に採択されたNVIDIA関連論文は20本にのぼり、それらは2023年5月2日に公開された同社ブログ記事と同社SIGGRAPH 2023特集ページで確認できます。本稿では、そのうち6本の論文を3つのテーマに分けたうえで2本ずつ紹介します。

第1のテーマは、テキスト画像生成AIです。このジャンルのAIはオープンソースのStable Diffusionが公開されて以降、目まぐるしい進化を遂げました。こうしたなかSIGGRAPH 2023で採択されたNVIDIA関連論文の1本は、少ない画像素材で画像をパーソナライズする手法を提案しています。

画像をパーソナライズする画像生成モデルとして有名なのは、Googleが発表したDreamboothがあります。このモデルは、例えば数枚の犬の画像を入力後、「泳いでいる犬」とテキストで描写すると、入力画像の犬が泳いでいる画像が生成されます。今回NVIDIAが発表したモデルは、Dreamboothと同様な画像生成を1枚の入力画像で実現します。以下の比較画像ではいちばん左が入力画像、いちばん右が同社提案手法で生成した画像です。1行目では、「ディープラーニングのゴッドファーザー」のひとりであるヤン・ルカン氏のポートレートと砂浜が合成されています。

2本目の論文は、複雑なテキスト表現や画像合成を実現したAIモデル「Perfusion」を発表したものです。このモデルを使うと、例えばクマのぬいぐるみの画像とサングラスの画像を与えたうえで、「サングラスをかけたクマのぬいぐるみが庭で座っている」とテキスト入力すると、所与の画像を合成してからテキストの内容を忠実に再現します。その表現力を先行モデルと比較したのが以下の画像です。画像上部に「Ours」というラベルがある画像が、NVIDIA提案手法によるものです。

Perfusionは、バイアス（bias）値と呼ばれるパラメータを操作すると、生成画像の忠実度を制御できます。例えば、犬の画像を与えたうえで「犬のアプリアイコン」とテキスト入力すると、犬をモチーフにしたアイコン画像が生成できます。この合成処理においてバイアス値を大きく設定するとイラスト風になり、小さく設定するとフォトリアルな作風になります（以下の画像の下段を参照）。

スポーツのプレイ動画から3Dキャラクターを生成

第2のテーマは2Dから3Dの変換です。このテーマで研究が進んでいる分野が、複数の2D画像から3Dシーンや3Dオブジェクトを生成するNeRFです。昨年のSIGGRAPH 2022では、NVIDIAが発表したNeRFの一種「Instant NeRF」が最優秀論文賞に選ばれました。

参考記事：弱点を克服し、さまざまな画像処理と融合するNeRF最前線

2D to 3D分野において今回採択された1本目の論文は、1枚の2D顔画像から3D顔画像を生成する手法を提案するものです。この手法を使えば、1枚の顔画像から上下左右に回転させると奥行を感じる顔画像が生成できます。人間の顔だけではなく、猫の顔も3D化できます。2D顔画像の3D化を連続的に実行すると、3D動画を生成できるようになります。ただし現時点ではリアルタイムでの生成ができないので、特定のショットに関する断続的な3D動画となります。

以上の手法の展望としては、顔だけではなく手足や全身に拡張することが考えられます。この手法を進化させていけば、次世代のオンライン会議ツールが誕生するかも知れません。

2本目の論文は、大量のテニスプレイに関する動画からテニスプレイを再現する3Dキャラクターを生成する手法を提案したものです。この手法で注目すべきなのは、学習データとして使われた動画には「サーブ」のようなテニスプレイに関するラベルが付与されていないところです。論文ではテニスをテーマに選んでいますが、バスケットボールやサッカーにも応用可能です。この手法は、時間とコストを要する人間の動作を3Dキャプチャする作業を代替できる可能性があります。

以上の手法は、3Dキャラクターの解像度に改善の余地があります。より高精細にするには高画質の動画を用意する、あるいは3Dキャプチャデータを併用するなどの方法が考えられます。なお、この手法で生成された3Dキャラクターはテニスのプレイを再現しているだけであり、テニスの試合に勝利するための戦術は実装されていません。テニスの試合に勝利できる3Dキャラクターを制作するには、プレイの再現に加えて戦術の学習を追加する必要があります。

高精細な髪の描写をAIで実現

第3のテーマは、既存CG技術の高品質化です。オブジェクトの描画や圧縮のような基本的なCG技術は、AIを活用することで品質を向上させられます。

こちらのテーマで1本目に紹介する論文は、人間の毛髪を高精度に描画する手法を提案したものです。この手法には、物理現象をニューラルネットワークが出力する予測によって再現するニューラル物理学が活用されています。今回の論文では、ニューラル物理学によって人間の毛髪のさまざまな挙動が再現されたというわけです。その研究成果は、理髪を再現した以下の動画を視聴するとわかります。

ただし、ここで紹介されている手法は人間の毛髪の再現だけに制限されており、例えば犬などの動物の体毛を描画することに応用できるかどうかは不明です。人間以外の動物の体毛を描画するには、今回開発したモデルを何らかのかたちで拡張する必要があるかも知れません。また、今回のモデルは空気抵抗などのさまざまなオブジェクトや環境との相互作用が考慮されていません。それゆえ、「風によって乱れる髪」のような表現を実現するには、新たなニューラル物理学の成果を追加実装する必要があるでしょう。

2本目の論文は、画像圧縮にAI技術を活用した手法を提案しています。この手法では圧縮する画像の特徴を抽出してから、その特徴を損なわないように画像情報を縮小させて、その縮小された情報にもとづいてAIモデルが画像を復元する、という処理が実行されます。このような処理によって、画像の特徴を損なわない圧縮が実現するのです。以下の画像は、意匠をこらしたインク壺の画像を圧縮してクローズアップした部分を比較したものです。いちばん右の画像が圧縮なしの画像で画像サイズが256MB、中央が提案手法による圧縮画像で3.8MB、左側が既存圧縮手法BC highを使った画像で5.3MBです。BC highの画像は表面の凹凸が滑らかになっているのに対して、提案手法の画像は凹凸を再現しているのがわかります。

こちらのAI技術による画像圧縮は、画像生成技術を併用することで進化すると考えられます。例えば圧縮画像を拡大する場合、画像生成によって画像の細部を補完すれば、画像を圧縮したままでも細部まで再現できるようになります。

本稿で紹介したSIGGRAPH 2023で採択されたNVIDIAの論文は、そのどれもがクリエイティブの現場で役立ちそうな内容となっています。同カンファレンスでは紹介した論文のほかにも、今後のクリエイティブ業界に大きな影響を与える論文があるかも知れません。同カンファレンスは2023年8月6日から10日に開催されますので、開催に合わせて公式サイトにアクセスして採択論文を確認するとよいでしょう。

Writer：吉本幸記