一貫性のある動画や電子透かし付き画像を生成。Googleが発表した最新生成AI解説

2024.2.21アート

2024年は、動画生成モデルが普及する年になると予想されます。こうしたなか、Googleらの研究チームは2024年1月23日、最新動画生成モデルLumiereを発表しました。本稿ではこのモデルについて解説したうえで、同社が最近発表したほかの生成モデルも紹介します。

6種類の機能を実現

映画を発明したリュミエール兄弟にモデル名が由来すると思われるLumiereは、以下のような6種類の生成機能を実装しています。

テキストからの動画生成
画像からの動画生成
画像スタイルの汎化（任意の画像の様式を動画に適用）
テキストによる動画スタイル編集（動画の様式をテキストプロンプトによって編集）
シネマグラフ（一部が動く静止画）の生成
インペインティング（欠落した画像の補完）

テキストからの動画生成に関しては、Lumiereは既存モデルより一貫性のある動画を生成できるようになりました。動画の一貫性の向上により、例えば人間や馬の歩行のような規則的な運動の表現において既存モデルと顕著な違いが生じます。Lumiereの前世代モデルにあたるImagen Videoでは、歩行の動画において文字通り足並みが乱れてしまいます。対してLumiereは、規則的な歩行運動をうまく表現できます。

テキストからの動画生成と画像からの動画生成については、人間テスターによる既存動画生成モデルとの比較実験を行いました。具体的には同一のプロンプト、あるいは画像から動画を生成して、人間テスターにLumiereと既存モデルのどちらが高品質な動画を生成したかを尋ねてみました。

比較した既存モデルは、テキストからの動画生成に関してはImagen Video、Pika、ZeroScope、gen2、AnimateDiffを選定し、画像からの動画生成ではPika、SVD、Gen2としました。また、テキストからの動画生成については、動画品質のほかに動画の内容とプロンプトの合致の度合いも評価してもらいました。その結果、Lumiereがすべての既存モデルより高品質だと評価されました。

なお、Lumiereの制限事項として複数のカメラ位置からの動画や、シーンの遷移を伴う動画は生成できません。それゆえ、今日の商業劇映画に見られるようなカメラやシーンに切り替えを多用してストーリーを伝えるような動画は、Lumiereから直接的に出力できません。同モデルを使って複雑な構造を持つ動画を制作したい場合は、複数の出力動画をつなぎ合わせる必要があるでしょう。

分割なしのフレーム生成で品質向上

Lumiereが既存モデルを凌駕する性能を実現できたのは、既存モデルとは異なるアーキテクチャを採用しているからです。既存モデルは、動画生成時に短いフレームに分割したうえで各フレームを構成する画像を生成します。こうした分割処理を行うのは、画像生成時の計算負荷を軽減するためです。

しかし、分割処理により生成動画の一貫性が損なわれることがあります。というのも、分割したフレームのあいだで、表現するオブジェクトの特徴や動きが一致しないことがあるからです。対してLumiereは、分割処理をせずに動画のフレーム全体を一括して生成します。その結果、一貫性のある動画が生成できるのです。

Lumiereにおける分割処理なしの動画生成の要となっているのが、時空間UNet（Space-Time UNet：STUNet）モデルです。このモデルは最初に解像度の低いフレームを生成してから、それらをさらに低解像度に変換します。こうしたリザイズ処理によって、分割処理せずにフレーム全体を生成できるのです。低解像度でフレーム全体を生成した後、それらを高解像度に戻すことで最終的に高品質な動画を出力します。なお、フレーム間の前後関係を特定する処理は計算負荷が大きいので、低解像度にリザイズされた時点で処理します。

現在のところ、Lumiereの論文は閲覧できますが、同モデルを利用できません。同モデルのプロジェクトページには「社会的インパクト」と題された見出しがあり、そこには悪用されるリスクと悪用を検出するためのツールの必要性が述べられています。こうした記述から、何らかの悪用検出ツールが完成してから同モデルは一般公開されると考えられます。

電子透かし付き画像生成、音楽生成、テキスト生成のツールも公開

2024年2月1日には、Googleは画像生成ツールImageFX、音楽生成ツールMusicFX最新版、そしてテキスト生成ツールTextFX最新版を発表しました。

ImageFXには、Google DeepMindが開発した画像生成モデルImagen 2が活用されています。同モデルによって、ImageFXは以下のような性能を実現しました。

入力プロンプトの理解力向上：学習データセットに含まれる画像のキャプションに対して、さらに詳細な説明を追加した。その結果、入力プロンプトの意図に沿った画像を生成できるような訓練が可能となった。
よりリアルかつ美麗な描画：従来の画像生成モデルが苦手とする人の手や顔の描画を改善し、アーティファクト（生成画像の乱れ）も減らした。さらに人間が好む照明、フレーミング、露出、シャープネスといった光学的設定を学習したことで、美学的に優れた画像を生成できるようになった。
流動型条件付け（Fluid style conditioning）：画像とテキストプロンプトの両方を入力して、画像を生成できる機能。この機能により、プロンプトで生成するオブジェクトを指示したうえで、入力した画像の絵柄を生成オブジェクトに描画することが可能となる。
高度なインペインティングとアウトペインティング：インペインティングとは、画像の特定の領域を指定したうえで、プロンプトを入力すると指定された領域が入力プロンプトにしたがって編集される機能。この機能により、画像に新しいオブジェクトを簡単に追加できる。アウトペインティングとは、所与の画像の範囲外を生成する機能。
電子透かしの付与：電子透かしを付与するツールキットSynthIDに対応している。このツールキットは画像に人間には識別不能だがツールを使うと識別できる電子透かしを付与するツールと、電子透かしを検出するツールから構成されている。電子透かしは、生成画像を編集しても検出される。

MusicFXとは、例えば「なぐさめと冒険的な雰囲気を醸し出すサウンド」のような楽曲の特徴を説明するプロンプトを入力すると、プロンプトに沿った楽曲を生成するツールです。同ツールは昨年12月に公開されて以来、1,000万曲以上が生成されました。今回発表された最新版は、アップデートにより前バージョンより3倍ほど人間に好まれるような楽曲を生成できるようになりました。

TextFXとは、ラッパーのルーペ・フィアスコとGoogleが共同開発したライティングツールです。このツールに任意の文章を入力すると、さまざまなフレーズに変換します。変換方法は選択可能で、例えば「Simile（直喩）」を選ぶと入力した文章が直喩を用いたフレーズに変換されます。今回発表された最新版では、ユーザビリティがアップデートされました。

紹介した3つのツールはGoogleが開発した実験的ツールを集めたLABS.GOOGLEにアクセスすると試用できます。ただし、2024年2月時点ではアメリカ、ニュージーランド、ケニア、オーストラリアのみで利用可能となっています。

以上のように、Googleは矢継ぎ早に生成AIを発表しています。そして、生成AI開発における同社最大のライバルであるOpenAIは2024年2月15日、動画生成モデルSoraを発表しました。このように生成モデルをめぐる覇権争いは、ますます激化しています。それゆえ、2024年も昨年に引き続き生成AIが大きく進化するでしょう。

Writer：吉本幸記