【CEDEC2023】AIの進化が拓く未来のゲーム体験：基調講演レポート

2023.9.12ゲーム

生成AIの登場と爆発的な普及により、人類は新たな産業革命に直面しています。

8月23日から8月25日まで開催された「コンピュータエンターテインメントデベロッパーズカンファレンス2023」（CEDEC2023）にて、株式会社Preferred Networks代表取締役最高研究責任者の岡野原大輔氏による「AIはゲームをどのように変えるのか」という基調講演を取材しました。

このセッションでは、誰でもAIツールを手軽に利用できるようになった背景、すでに幅広い分野のテクノロジーに活用されている大規模言語モデル、拡散モデル、ニューラル場という概念、そしてAIの進化がもたらす未来のゲーム体験について語られました。

AIが爆発的に普及した要因

近年、AI技術の急速な発展により、身近なツールとして多くの人が利用するようになりました。なかでもChatGPTは公開からわずか2か月で月間利用者数が1億人、Midjourneyは2,850万人を超えるほどに広く普及しました。プログラミングの専門知識がなくても、自然言語を介してAIに指示を出せるようになったことが大きな要因と考えられています。より幅広いユーザーがAI技術に触れるようになったことで、これまでよりイノベーションが起きやすくなったといえるでしょう。

誰でも手軽にAIツールを使いこなせるようになった背景には、膨大な量のデータをあらかじめ学習させたAIモデルの登場があります。ChatGPTのベースになっている大規模言語モデルや、Midjourneyのような拡散モデルは、ウェブや書籍、プログラムといった多様な情報源から知識を蓄積し、自己教師あり学習という手法でさまざまなスキルを獲得しています。これにより、AIは多岐にわたる分野でタスクを遂行できるようになりました。

また、テキストや画像、音声など、さまざまな形式の指示を柔軟に受け付けられるようになった点も大きく影響しています。この柔軟性により、ユーザーは目的や用途に合わせた方法でAIに指示を出せるようになりました。

くわえて、近年のAIモデルは利用時に新しい情報を学習して次回のタスクに活用できる「In-Context Learning」という能力を有しています。これにより変化する状況に適応し、より適切な結果を提供できるようになりました。

このほか、AIの記憶をつかさどる仕組みが大幅に改善されたことも、AIの爆発的な普及に貢献しています。情報の保存方法や想起方法が進化したことで、AIは過去の情報に迅速にアクセスしてタスクに活用できるようになりました。

いまもっとも注目されているのが、さまざまなタスクに適用できるマルチモーダル基盤モデルという概念です。テキストや画像、音声といった異なるモーダル間の情報をトークンという共通言語で自由につなげて扱えるようにすることで、個別の機械学習モデルを開発する必要がなくなります。このモデルでは、対象の情報はトークン集合で表現されます。トークン列からトークン列の予測が統一的に行えるため、異なるタスクへの適用が容易になるという仕組みです。

言語理解の未来を拓く技術

言語モデルは、単語や文の並びに対する確率を学習する自己回帰モデルです。Transformerと呼ばれる構造を用いて、次に来る単語を予測するために条件付確率をモデル化しています。もっともらしい単語であれば高い確率が与えられ、逆に不自然な単語であれば低い確率となります。この仕組みにより、文脈に基づいて単語や文章を生成できるようになります。単語列のもっともらしさを評価できる特性は機械翻訳や音声認識に、後続単語を生成できる特性はChatGPTのようなAI対話システムに利用されています。

こうした言語モデルの訓練を可能にしているのが、自己教師あり学習とよばれる手法です。このアプローチでは、過去の情報から未来を予測したり、一部が欠落している情報の残りの部分から欠損箇所を予測したり、意味が同じものと違うものを対比したりと、与えられたデータの中でモデルが自己完結的に学習を繰り返すので、正解データを用意する必要がありません。特定タスクの達成を目的とした教師あり学習と異なり、膨大かつ多様なデータを利用でき、幅広いタスクに対応できるようになります。

入力に応じてどの情報を取得するかを決める仕組みを注意機構といいます。データのフィルタリングやルーティングにより、文脈に基づいて情報を処理できるようになります。前述したTransformerと呼ばれるアーキテクチャは、この注意機構を多層に積み重ねて構成されており、長期記憶と短期記憶を組み合わせて情報を処理しています。

なお、言語モデルの性能には学習時の計算量、学習データの量、モデルのサイズが影響し、これらと検証データのクロスエントロピー損失の間には、べき乗則が成り立ちます。つまり、予測可能な形で予測性能や後続タスク性能が改善できるというわけです。言語モデルは学習データやモデルサイズ、学習時の投入計算量を大規模化することで、論理思考や質問応答、抽象的思考といった能力が創発し、複数のタスクを組み合わせて処理できるようになります。

大規模言語モデルは、追加の学習データを用いないゼロショット、および少数の学習データを用いるフューショットで新しいタスクを解決できます。高い分布外汎化能力を備え、多くのタスクで大量の教師ありデータを使用した場合と匹敵する性能を発揮します。これにより、従来の機械学習が必要とした大量の学習データが不要になりました。

くわえて、異なるデータ間を自動的に翻訳する能力も持っています。言語、画像、音声、3Dといった異なるモーダル間で情報を共有し、タスク間で知識を活用できます。また、学習中に概念を共有する仕組みを見つけ出し、勾配降下法による自動正則化を実行します。さらに、大規模言語モデルには身体性がないにも関わらず、空間や時間の概念をある程度理解していることが分かっています。

その場でさまざまなツールを使いこなす能力を獲得できるのも、大規模言語モデルの特徴です。ツールの使い方を学習させるには使用例を見せるだけでよく、複雑なタスクを効果的に処理できることから、人間が特定のタスクを遂行する上での補助としても活用されます。

破壊と再生によって学習する

拡散モデルは、非平衡熱力学を源流に持つ深層生成モデルの一種です。データにノイズを徐々に加えていく拡散過程を逆向きに辿る逆拡散過程（生成過程）によって生成モデルを定義します。その基本原理は、データを破壊することで生成方法を学習し、元のデータを再構築することです。

複数の確率層からなる変分オートエンコーダー（VAE）の一種であり、データにノイズを加えたりデータを変換したりする拡散過程（固定の推論）、データを再構築する逆拡散過程（生成）、そしてデータの対数尤度の変分下限（ELBO）を最大化することで学習します。つまり、データを拡散して破壊した際に、元に復元できる経路を求める事前分布から目標分布へ変換する経路の中で発生する散逸（自由エネルギー減少）が最小の経路を求めることによって、データ生成のプロセスを学習するという仕組みです。

学習時には、データにさまざまな強度のノイズを追加し、それをデノイジングできるようにモデルを訓練します。また、推論時には、完全なノイズからデータをサンプリングし、それをデノイジング強度を下げながらデノイジングします。ちなみに、局所解に陥らないよう各強度の撹乱後分布でランジュバン・モンテカルロを使ってサンプリングするスコアベースドモデルと、拡散モデルは目的関数の係数などを除いて一致することが分かっています。

拡散モデルは、データ補完、超解像、Zero-shot編集といった編集タスクに最適です。また、密度推定、非可逆圧縮、敵対的摂動頑健性向上、最適化といったタスクでも最高精度を達成しています。特筆すべきは、学習時に使わなかった別情報での条件付生成を、少量のデータで適応できる点です。

最新の研究では、データ点から事前分布への最適輸送をデータ分布で周辺化することで、データ分布から事前分布への最適輸送を求めるフローマッチングという手法も注目されています。デノイジングスコアマッチングとほぼ同様の証明を行いながらも、実用上では拡散モデルより優れている部分も多いことから、さらなる発展が期待されています。

3Dスキャンをもたらした概念

大規模言語モデルと拡散モデルに加えて、NeRF（Neural Radiance Fields）をはじめとしたニューラル場という概念も今日のAI技術の発展に大きく貢献しています。

ディープラーニングにおけるシーン学習では、対象となるシーンや物体をニューラルネットワークで表現します。このニューラル場の表現は微分可能であるため、観測データからモデルのパラメータを推定することが可能です。

たとえば、NeRFという手法では、位置（u）やカメラの姿勢（θ）に対して、その位置の色や透明度を生成できます。ここに時間やテキストといった条件付けを加えれば、動画やテキストに応じた環境変化も扱えるようになるというわけです。ここで評価値を3D形状や物性、色、照明、カメラなどのパラメータで微分することで、3Dシーンのパラメータを勾配法で最適化できます。これが微分可能レンダリングによる3Dシーンの最適化です。

この仕組みを活用した3Dスキャン技術は、さまざまな分野に応用され、テクノロジーに革命を起こしています。映像制作やゲーム開発、メタバースの構築、機械学習のデータセット作成におけるCGの効率的な生成、CAD（コンピュータ支援設計）やリバースエンジニアリングといった産業利用、文化財や建築物のデジタルアーカイブ作成、ロボットや自動運転技術の研究開発における現実環境の把握など、応用分野は多岐にわたります。

記憶力が変えるゲーム体験

こうしたAI技術の進歩は、ゲーム業界にもさらなる変革をもたらすことが予想されます。なかでも、これまでとはまったく異なるレベルでゲームキャラクターに記憶という概念を実装することで、ゲーム体験が劇的に変化することが期待できます。

ゲームキャラクターの長期記憶は、事前学習時に学習事例を導入し、パラメータに埋め込むことで実現できます。これはファインチューニングによりLoRA（Low-Rank Adaptation）のような形式で追加パラメータとして保持され、プレイヤーの行動や選択に影響を与えます。短期記憶は、ワーキングメモリとアテンションという形で導入できます。こうした記憶の実装により、キャラクターが一度経験したことを後で思い出して行動に反映させることが可能になります。

例えば、プレイヤーとキャラクターが以前の戦闘で共に戦った場合、キャラクターはその経験を覚えており、次の戦闘において適切な行動をとれるようになるといった具合です。また、過去のイベントにおけるプレイヤーの選択を瞬時に思い出し、行動に反映させることも可能でしょう。もしプレイヤーがキャラクターに会ったことを忘れていた場合でも、キャラクターがプレイヤーのことを覚えていれば、プレイヤーとの会話内容に一貫性をもたせられます。

このほか、キャラクターの性格や価値観の設定は、教師ありファインチューニングや強化学習フィードバックを用いてアライメントとして実現できます。これにより、プレイヤーはキャラクターとのよりリアルな対話と相互作用を体験できるようになります。ゲームキャラクターが豊かな記憶と多様な個性を持つようになれば、プレイヤーとキャラクターの関係性は間違いなく一変するでしょう。

Writer：Ritsuko Kawai / 河合律子