テキストから動画生成、鼻歌から楽曲生成：月刊エンタメAIニュース vol.47

2023.11.27先端技術

エンタメにおいても人工知能は日進月歩で発展しており、新しい研究成果や試みが次々と発表されています。こちらの連載では、過去1か月間に公開された注目すべきゲームAIやエンタメAIに関連したニュース、論文などを紹介していきます。

テキストから動画を生成するAIモデル

メタは11月16日、テキストからビデオを生成できるAIモデル「Emu Video」と、テキストプロンプトで画像を編集できるAIモデル「Emu Edit」を発表しました。両者とも、今年9月に同社が開催したイベント「Meta Connect」で発表された生成モデル「Emu」（Expressive media universe）を基に構築されています。

Emu Videoは、テキストおよび画像、あるいは両方を同時に入力した際の生成タスクを統合した拡散モデルで、テキストから画像を生成するプロセスと、その画像と別のテキストを基に動画を生成するプロセスの2段階構造を採用しています。これにより、わずか2種類の拡散モデルを使って512px、16fpsの4秒間の動画を生成することに成功したとのこと。

A clear wine glass with turquoise-colored waves inside it（出典：メタ）

Emu Videoのプロジェクトページでは、「A clear wine glass with turquoise-colored waves inside it」（内部でターコイズブルーの液体が波打つ透明なワイングラス）や、「A big moon rises on top of Toronto city」（トロント上空に昇る巨大な月）といった入力テキストで生成された複数のサンプル動画を閲覧できるほか、自分でテキストを入力して実際に動画生成を体験することも可能です。

【論文】Factorizing Text-to-Video Generation by Explicit Image Conditioning

Emu Editは、さまざまな画像編集タスクをテキストによる指示で実行できるマルチタスキングモデル。背景の削除や追加、色やジオメトリの変換、部分検出やセグメンテーションといった16種類の操作に対応しており、テキストを入力するだけで画像を直感的に編集できるツールです。

プロジェクトページでは、Emu Editを使って画像を編集するプロセスを収録した動画がいくつも公開されています。一例として、書斎で読書する鹿人間の画像を、「本をノートPCに変更」「服装を青のパーカーに変更」「部屋をサイバーパンク風に変更」「ノートPCにステッカーを追加」「スピーカーを飲み物の缶に変更」「全体を水彩画風に変換」といったテキストプロンプトで次々と編集するプロセスが確認できます。いずれの画像でも、背景とオブジェクトの区別はもちろん、各オブジェクトの特性やオブジェクト間の境界を正確に認識した上で指示に忠実な編集を施しています。

【論文】Precise Image Editing via Recognition and Generation Tasks

生成AIで本物らしさを増すバーチャルペット

Nianticは11月15日、バーチャルペットを育成できるARゲーム「ペリドット」をアップデートし、生成AIによるキャラクターの演出を追加したことを明らかにしました。

ペリドットは、スマートフォンのカメラで取り込んだAR空間のオブジェクト情報に対して、自分のバーチャルペットが多様なリアクションを見せる様子を楽しめるのが特徴の育成ゲームです。従来はそれぞれのリアクションを手動でプログラムしていましたが、メタの大規模言語モデル「Llama 2」をベースにした生成AIを実装することで、ペットのリアクションにさらなる多様性をもたせることに成功したということです。

ペリドットのメカニズムは、ユーザーのカメラが捉える現実世界の画像をコンピュータビジョン用AIアルゴリズムで3D形状に変換することで、デジタルのキャラクターが実在する物体やその表面を認識できるという仕組みです。

今回のアップデートは、これらの情報を性格や年齢、生い立ちといったペットの情報とともに大規模言語モデルへ伝達し、そこからリアクション情報を出力。その結果をもとにアニメーションライブラリからペットの行動を決定するというものです。これにより、ペリドットが本当の生き物のように学習し、適応し、個性を発揮しているように演出しています。

鼻歌から楽曲を生成できるAIモデル

YouTubeは11月16日、Google DeepMindと共同開発した2種類の楽曲生成機能「Dream Track」と「Music AI Tools」を発表しました。

Dream Trackは、Google DeepMindの音楽生成モデル「Lyria」を活用したYouTube Shortsの新機能で、楽曲のアイデアをテキストで入力するだけで、30秒までのショート動画用のサウンドトラックを自動生成してくれます。

このプロジェクトには、Alec Benjamin、Charlie Puth、Charli XCX、Demi Lovato、John Legend、Papoose、Sia、T-Pain、Troye Sivanの9人のアーティストが参加しており、ユーザーはアイデアを入力する際に誰の歌声で楽曲を生成するかを選択できます。

Music AI Toolsは、今年8月にUNIVERSAL MUSIC GROUPとの提携で始まった「Music AI Incubator」プログラムの一環として、アーティストや作詞家、プロデューサーの協力のもと実験中の生成ツール。ユーザーのアイデアをより直感的に楽曲へ反映させる技術を目指して開発されました。

たとえば、ユーザーの鼻歌をギターリフへ変換したり、MIDIのキーボード音源からボーカルコーラスを作成したり、楽曲制作における生成AIの可能性を最大限に引き出すためのプロジェクトです。

YouTubeが合成映像の開示を義務化

YouTubeは11月14日、現行のコミュニティガイドラインを更新し、生成AI等を利用したコンテンツに関する2つの項目を新たに追加することを明らかにしました。

1つ目は、生成AIのようなツールを利用して現実のものと区別がつかないように生成、もしくは改変されたコンテンツをアップロードする場合は、それが合成コンテンツであることを視聴者に知らせることを義務付けるというもの。

ユーザーが動画を投稿する際にチェックを入れるオプションが用意され、選択した場合は動画の説明欄にラベルが付与される仕組みです。この開示義務に違反したユーザーは、当該コンテンツの削除やパートナー資格の停止といった罰則の対象になるということです。

2つ目は、本人の承諾を得ずに無断で顔や音声を利用して生成されたコンテンツに対して、プライバシー侵害の申し立て手続きから、当該コンテンツの削除を要請できるようにすること。くわえて、生成AIを用いて既存の楽曲を無断で模した音楽コンテンツに対して、YouTubeと提携する権利者が削除を要請できる機能も追加する予定とのこと。

これら新たなガイドラインに基づいたオプションや要請機能は、今後数か月のうちに実装予定だということです。

Yahoo!知恵袋にAIが回答する機能追加

LINEヤフーは11月17日、同社が運営する知恵共有サービス「Yahoo!知恵袋」に、OpenAIの生成AIを利用した「AI回答機能」を試験的に実装しました。

同社によると、「Yahoo!知恵袋」には年間約5400万件の質問と回答が投稿される一方で、約1割の質問には回答がつかないのが課題とのこと。AI回答機能を導入することで未回答の質問が減るだけでなく、ユーザーの回答にAIの回答が加わりバリエーションの拡大が期待できるとしています。より質問者が答えや気づきを得る機会を増やし、より速く質問者の課題を解決しやすい環境の提供を目指していきたいとのこと。

AI回答機能が実装されたことで、ユーザーは質問を投稿する際にAI回答機能による回答の表示を任意で選択できるようになりました。この機能をオンにして規約に同意すると、質問投稿後に短時間で生成AIによる回答が投稿されます。生成AIによる回答投稿後もユーザーによる回答の投稿が可能なため、質問者はユーザーと生成AI両方の回答を確認できるとのことです。

なお、AI回答機能による回答も、質問者がもっとも納得、満足した回答を選ぶ「ベストアンサー」の対象だということです。第一弾として「悩み相談」と「歴史」の2カテゴリで本機能を提供した後、順次提供カテゴリを拡大していくとのこと。

Writer：Ritsuko Kawai / 河合律子