【秋期GTC2022】3Dポーズ推定とメッシュ生成に関するNVIDIA最新研究を紹介

2022.10.28先端技術

2022年9月19日から22日にかけてNVIDIA主催の技術カンファレンス「GTC 2022 Fall」が開催されました。22日には「NVIDIAのコンピュータビジョン研究：AIを使って人間を認識する」と題されたセッションが行われました。本稿ではこのセッションを要約することで、ポーズ推定とメッシュ生成に関するNVIDIAの最新研究を紹介します。

2.5Dからの3Dポーズ推定

以上のセッションの発表者であるNVIDIAでラーニング＆パーセプション・リサーチ担当バイスプレジデントを務めるジャン・カウツ（Jan Kautz）氏は、画像認識における研究領域のひとつであるポーズ推定を解説することから発表を始めました。ポーズ推定とは、人間が立っている、歩いている、座っているといった姿勢を認識するAIに関する研究を意味します。この研究の応用範囲はロボット工学、自動運転時の歩行者検出、見守りカメラなどにおける転倒検出、スポーツにおける動作分析と多岐に及びます。

ポーズ推定の従来研究では、XY座標で構成された2D画像からXYZ座標で表現される3Dの姿勢を推定することに取り組んでいました。しかし、このアプローチでは推定過程で欠落する情報が多いため、高精度の推定は実現できませんでした。こうしたなかカウツ氏が試みたのが、2.5D画像からの3Dポーズ推定でした。2.5D画像とは、xy座標に（ポーズ推定研究ではキージョイントと呼ばれる）肩や頭のようなポーズを構成する重要な身体部位のあいだの相対的な位置関係に関する座標情報を加えたものです。2.5Dという言わば2Dと3Dの中間的な処理過程を加えると、2Dからの推定と比較して情報の欠落が少なくなります。

2.5D画像から3Dポーズを推定するAIモデルの訓練に使う学習データとして、カウツ氏はキージョイントに関するラベルを付与した2D画像とモーションキャプチャ等によって収集した3Dポーズデータを用意しました。2種類の学習データを用意したのは、2D画像データだけでは奥行に関する学習が不足するからでした。

以上のような学習データによって訓練したAIモデルはポーズ全体を推定できる一方で、キージョイントの正確な位置を推定できないという難点がありました。この難点を克服するために、カウツ氏はキージョイントの位置をその確率分布に対応したヒートマップで算出する処理を加えました。

2.5D画像から3Dポーズを精確に推定できるようになっても、推定されたポーズの奥行に関する情報はキージョイント間の相対的位置に留まります。相対的な奥行情報から3D空間内の絶対的座標への変換は、カメラの位置情報とキージョイント間の相対的位置情報を使って算出できます。こうして2.5D画像から3Dポーズを推定するAIモデルは完成したのでした。

ポーズ推定モデルの発展

以上に解説したポーズ推定モデルには、前述したように2種類の学習データを用いました。そのうち3Dポーズデータは、収集するのにコストがかかるという難点があります。より安価にモデルを開発するためには、可能であれば2D学習データのみで訓練できるのが望ましいです。

カウツ氏は、3Dポーズデータを用いない訓練方法としてマルチビュー画像を使った訓練を試みました。マルチビュー画像とは、単一の動作を複数のカメラから撮影した画像データセットを指します。このデータセットは複数の固定カメラを設置して日々の動作を撮影すれば収集できるので、モーションデータより簡単に用意できます。こうして用意した画像を使えば、2D画像であっても精確に奥行情報を推定できるようになるのです。

3Dポーズ推定モデルを活用すれば、任意のポーズに関する3Dメッシュを生成できます。例えばフェンシングの剣技のひとつである「突き」と推定されたポーズから、突きをしている競技者に関するメッシュを生成できるのです。こうしたメッシュ生成は、ポーズを推定後、標準的な身体に関するメッシュを使って言わばポーズに肉付けすることで実現します。

以上のメッシュ生成は標準的な身体メッシュにもとづいているため、極端に太っていたり痩せていたりするメッシュを直接的に生成できないという制約があります。標準から外れた体格のメッシュを制作するには、標準的なメッシュを生成後に手作業で体格を修正する必要があるでしょう。

移動カメラで撮影したオクルージョンのある動画からのメッシュ生成

カウツ氏は、移動カメラで撮影した動画から複雑な動作に関するメッシュを連続的に生成するAIモデルの開発過程についても発表しました。このAIモデルに対する入力動画として想定されているのは、複数のダンサーが複雑にダンスしている様子を移動カメラによって撮影したものです。ダンスパートの多いミュージックビデオを典型例としたこうした入力動画では、腕や脚によって身体の一部が見えなくなったり、あるダンサーがほかのダンサーの陰になって見えなくなったりする「オクルージョン（occlusion：「遮蔽」と訳せる）」が頻繁に起こるので、連続的なポーズ推定が非常に困難となります。

以上のようなオクルージョンに対応した連続的メッシュ生成モデルを開発するにあたって、以下のような複数の処理を実行するアーキテクチャが考案されました。

個々のポーズを推定する処理
オクルージョンが生じて見えなくなったポーズを生成する処理
推定したポーズと生成したポーズを整合的につなぎ合わせる処理
つなぎ合わせたポーズにカメラの位置移動に関する情報を加味する処理

3つ目の処理にあたる推定したポーズと生成したポーズをつなぎ合わせる処理には、任意のポーズから次の動作を予測できるという知見が活用されています。例えば以下の画像のようなポーズが与えられると、地面が描画されていなくても後ろ歩きをしている途中にあると推定できます。

カウツ氏が開発した連続的メッシュ生成モデルと同様のタスクを実行する既存モデルを比較したところ、同氏開発モデルが既存モデルを大きく上回る結果となりました。同氏開発モデルが生成したメッシュを表示している以下の左側画像はダンサーのダンスが忠実に再現されているのに対して、既存モデルの生成結果を表示した右側画像ではダンサーの脚が地面にめり込むという明らかな不具合が生じています。

手先のポーズ推定

以上に紹介したポーズ推定とメッシュ生成は、いずれも身体全体を対象としたものでした。ポーズ推定に関しては、手先のような特定の身体部位を対象とした場合にも前述の3Dポーズ推定モデルが流用できます。手先のポーズ推定についての学習データでも、2D画像と3Dポーズデータの2種類が必要となります。もっとも、3Dポーズデータはフィジカルな手から採取するのでなく、手先を再現した3Dシミュレーションから人工的に生成して収集できます。

しかしながら、3Dポーズ推定モデルの流用だけでは複雑な形状をしている手先を高精度に推定できません。というのも、手先の複雑な形状を推定するのに必要な奥行情報が不足してしまうからです。高精度に手先のポーズを推定するためにカウツ氏が追加した処理は、手先の生体力学的メカニズムから推定されるポーズを限定するというものでした。具体的には標準的な指の相対的な位置関係や関節の可動域にもとづいて、推定されるポーズを絞り込みました。