動画生成AIが植え付けた未来図：月刊エンタメAIニュース vol.50

2024.2.22先端技術

エンタメにおいても人工知能は日進月歩で発展しており、新しい研究成果や試みが次々と発表されています。こちらの連載では、過去1か月間に公開された注目すべきゲームAIやエンタメAIに関連したニュース、論文などを紹介していきます。

文章から1分の動画を自動生成

この2月は、OpenAIが15日発表した動画生成AI「Sora」が特に大きな話題になりました。

Soraはテキストを入力するだけで最大60秒の動画を生成できるほか、静止画からアニメーションを生成することも可能です。既存の動画を入力して延長したり、欠落したフレームを補ったりすることもできます。

多くの画像生成AIと同様に拡散モデルで、静的ノイズの連続のような状態の動画を生成した後に、徐々にノイズ情報を取り除きながら最終的な出力に近づけていくという仕組みです。

GPTにおけるトークンのように、動画や画像をパッチとよばれる分割されたデータの集合体として表現しており、このデータの表現方法を統一することで、異なる長さや解像度、アスペクト比からなる多様な視覚情報を使った拡散トランスフォーマーの学習を実現しています。くわえて、同社の画像生成モデル「DALL-E 3」のリキャプション技術が、ユーザーのテキスト入力に忠実な処理を可能にしています。

特筆すべきは、ユーザーが入力した情報を正確に可視化できるだけでなく、それらが現実の物理世界でどのように存在しているかについても、高い精度で理解できている点です。複数の被写体からなる複雑なシーンを生成でき、具体的に細かく指示した動作や背景の詳細にいたるまで正確に描写できます。また、被写体が一時的に画面の外に出ても元の状態を正確に維持できるとのこと。既存の動画生成モデルが抱えていた課題を劇的に克服しています。

一方、被写体の動作による特定事象の因果関係を正確に処理できないという課題も残っているとのこと。たとえば、人物がクッキーをかじるシーンを生成した際に、かじられたクッキーに何の痕跡も残らないようなケースです。また、特定のカメラ軌道で被写体を追うようなシーンを生成する際に、右と左を混同したり、時間の経過による事象の変化を正確に描写できなかったりと、空間情報の処理にも弱点がみられます。

Soraは現在、一部の開発者やクリエイターを対象に限定的に提供されている試験段階で、一般公開はされていません。なお、2月8日には、テキスト入力の指示で画像からアニメーションを生成できる「Keyframer」に関する論文が、Appleの研究者から発表されていました。こうした技術が将来的にChatGPTのように広く普及し、多様な分野において実用性が認められれば、映像産業におよぼす影響は計り知れないでしょう。

短期間に進化するグーグルのAI

グーグルは2月15日、同社の生成AIモデル「Gemini」の最新バージョン「Gemini 1.5」を発表しました。同モデルは2023年12月に最初のバージョンを正式発表した後、2月7日に上位モデルの「Gemini 1.0 Ultra」を公開したばかりでした。

Gemini 1.5は、中規模のマルチモーダルモデルとして幅広いタスクにおけるスケーリングに最適化されており、「Gemini 1.0 Ultra」と同等のパフォーマンスを発揮できます。1時間の動画、11時間の音声、3万行を超えるコードや70万字以上のコードベースなど、膨大な量の情報を一度に処理できるとのことで、膨大な量の情報に関する複雑な推論を可能にしています。デモ動画では、アポロ11号の月面着陸に関する402ページにわたる記録から、文書内に記された会話や出来事、画像、詳細について推論する様子が公開されています。

Reasoning across a 402-page transcript | Gemini 1.5 Pro Demo

このほか、複数のモダリティの相互理解と推論に関する能力も向上しており、44分間のバスター・キートンの無声映画からプロットや出来事を正確に分析して詳細を推論するデモも公開されています。

Gemini 1.5は現在、一部のデベロッパーと顧客企業を対象に、AI StudioおよびVertex AIをとおしてプレビュー版が提供されています。

GPU上にローカルなチャットボット

NVIDIAは2月13日、ローカル環境で利用できるチャットボットの無料技術デモ「Chat with RTX」を公開しました。

VRAM 8GB以上のNVIDIA GeForce RTX 30シリーズ以降のGPUを搭載したWindowsで動作し、MistralやLlama2といったオープンソースの大規模言語モデルにユーザーのローカルファイルをデータセットとして読み込ませることで、クラウドを経由しない完全にプライベートなチャットボットとして活用できます。

「.txt」、「.pdf」、「.doc/.docx」、「.xml」をはじめ、多くのファイル形式に対応しているほか、YouTubeの動画などのURLを読み込ませて情報を取得することも可能です。たとえば、「ラスベガスでパートナーがおすすめしたレストランはどこか」のように尋ねると、Chat with RTXが指定されたローカルファイルをスキャンし、引用元の情報とともに回答してくれます。

長くなった会話をAIが要約してくれる

Slackは2月14日、新機能「Slack AI」の提供を開始しました。質問に対する答えを検索したり、チャンネルのハイライトをまとめたり、会話が長くなったスレッドの内容を要約したりと、チーム内での意思疎通と情報共有をより円滑に実行するのに役立つツールです。現在、「Enterprise」プランのサブスクリプションユーザーを対象に、有償アドオンとして英語のみで提供されており、他の言語にも近日中に対応するとのこと。

将棋AIの技術でポケモンバトルの戦況解説

将棋AIの研究開発で知られるHEROZは2月9日、ポケモンバトルに特化したAI「Pokémon Battle Scope」（ポケモンバトルスコープ）を、株式会社ポケモンと共同開発したことを明らかにしました。この技術は、2月25日に開催予定の「ポケモン竜王戦2024」においてゲーム部門の配信画面に初めて導入されるとのことです。

「ポケットモンスター」シリーズは、世代を越えて新たなファンが増え続ける一方、初心者や日常的にゲームに触れていないユーザー、ポケモンバトルを途中から観戦する視聴者にとって、選手によるポケモン選択の良し悪しや戦局を理解するのが難しいのが現状です。

そこで、AIを搭載した日本将棋連盟公認の将棋ゲームアプリ「将棋ウォーズ」をはじめとするAI搭載ゲームや、ゲーム解析AIの開発を通じて培った技術の強みを生かし、誰でもポケモンバトルの視聴を楽しめるように「Pokémon Battle Scope」を開発したとのこと。

具体的には、対戦中に目まぐるしく変化するポケモンバトルの戦況、ポケモンのタイプや特性、技、もちもの、バトル中の天気やフィールドといった複雑な情報から、勝ち筋の高い次の一手を予想表示し、ポケモンバトルの知識の有無や深さに関係なく、対戦視聴を楽しめる仕様を構築したということです。

生成AIを使った占い師育成アプリ

Optimiumは2月1日、占い師のスキル向上を支援する学習アプリ「kanaeru」をリリースしました。生成AIを活用することで、膨大な組み合わせのある占い結果から相談内容に合わせたリーディングを自動で出力でき、これまで占い師育成における課題だった実践練習不足を解消するのに役立つということです。

同社によると、現在の占い師育成は本と講師を通じた学習が主流であり、時間的および物理的な制約から、多様な相談内容と占い結果の組み合わせパターンに対するリーディングを反復練習する実践的な機会が不足しやすいとのこと。

「Kanaeru」はタロット、数秘、西洋占星術、手相の4種類の占い手法に対応しており、200種類以上の相談内容のテンプレートに加えて、自由記述による相談内容の設定も可能です。設定された相談内容と占い結果から、生成AIがリーディングを自動生成してくれます。一人でも様々なケースを想定した実践的なリーディングの練習を繰り返せるため、隙間時間を使って占いスキルの向上が図れるということです。

Writer：Ritsuko Kawai