【CEDEC2021】ゲームキャラクターの声を音声合成に置き換えるのは可能か

2021.10.15ゲーム

近年、3Dグラフィックでデザインされたゲームキャラクターに生命を吹き込む声の演出は、小規模のスタジオやインディー開発者による作品を除いて、ほぼ当たり前のように実装される要素となりました。こうしたキャラクターボイスは、台本の作成、セリフの収録、ゲーム内での再生という流れで長らく実装されてきましたが、日進月歩の発展を続ける人工知能技術を活用しようとする新たな試みが国内外で活発化しています。

8月24日から8月26日までオンラインで開催された「コンピュータエンターテインメントデベロッパーズカンファレンス2021」(CEDEC2021)にて、スクウェア・エニックス AI＆アーツアルケミーの三宅陽一郎氏と、東芝デジタルソリューションズの倉田宜典氏による「学習ベースの自然な音声合成技術のキャラクターボイスの応用と実運用」というセッションを取材しました。

このセッションでは、ゲーム業界が音声合成技術に着目する背景と、機械学習モデルの導入によって急速に発展する音声合成技術の現状について語られました。自動音声案内や音声アシスタントとは異なり、ゲームキャラクターへの応用にはユーザーが違和感なく対話できるリアリティが重要視されることから、音声合成に求められるクオリティは他業界にくらべてはるかに高くなることが予想されます。スクウェア・エニックスが目指す自然言語で対話できるエンターテインメントAIは、はたして音声合成技術によって実現できるのか。その可能性と課題が垣間見える内容です。

なぜゲーム業界に音声合成技術が必要なのか

いまゲーム業界で音声合成の応用が注目される背景には、キャラクターのセリフやプレイヤーへの応答を自動生成できるプロシージャル技術の発展があります。台本として用意されている会話内容であれば従来どおり事前に収録できますが、ゲームキャラクターのアドリブともなれば音声合成による発話は避けて通れません。また、セリフの事前収録が不要になれば、開発中に生じるセリフの拡張や変更も容易になります。さらに、プレイヤーの状態や行動に依存した情報をセリフとして発話させることにも期待が寄せられています。

ゲーム作品において求められる音声合成のクオリティは、キャラクターの役割や特性によって異なります。たとえば、固有名詞を持たない汎用NPCであれば、あからさまな機械音声でない限り、ある程度ゲームの世界観に馴染んでいればおそらく違和感はありません。一方、物語の中枢を担う重要なキャラクターや、プレイヤーと長時間行動を共にするパートナーのようなキャラクターの場合は、キャラクター同士で調和したり、状況に応じて感情を込めたりできる発話が求められます。

それを実現するためには、開発者が意図した音声を合成できて、その機能をゲーム内容に合わせて後から調整できる仕組みが必要です。また、機械学習モデルを可能な限り透明化することで、意図した演出の成否に関わらず原因を追求できるような環境構築も重要だといいます。加えて、ゲーム開発をとおして出力された音声データは辞書として蓄積し、いつでも再利用できるような体制を整えたいとのこと。将来的には、それぞれのNPCがプレイヤーとの会話を即時生成でき、さらにはキャラクター同士でも自律的に会話できるような言語生成AIを実現したいということです。

音声合成の導入で声優が不要になるわけではない

音声合成の歴史は長く、古くは18世紀後半に作られた機械式音声合成にまでさかのぼります。現代の音声合成には、基本周波数の調整や声道モデルの調音プロセスを用いる「規則合成」、録音された音声の素片を連結する「波形接続型音声合成」、音声の特徴を学習させた生成モデルを使う「統計的パラメトリック音声合成」といった手法があります。

統計的パラメトリック音声合成に機械学習モデルが用いられたことをきっかけに、ここ20年ほどの間に音声合成は急速な発展を遂げたとされています。その先駆けとなったのが、1999年に提案された隠れマルコフモデル（HMM）を生成モデルとして活用した手法です。その後、2013年にディープニューラルネットワーク（DNN）を利用した生成モデルの登場で、それまでの機械的な音声と比べて極めて自然な音声合成が可能になりました。

基本的な仕組みは、自然言語の入力テキストから言語特徴量を解析し、そこから表音文字列のような中間言語を生成。最後にシンセサイザーモジュールで声辞書と呼ばれる生成モデルを元に合成音声が出力されるという流れです。最終的な音声合成のクオリティは、シンセサイザーモジュールで使われる声辞書に大きく依存しています。

そのため、声の素となる声辞書の方向性の検討や、声主候補の選定が非常に重要だということです。つまり、音声合成に多彩な表現力を追求するためには、声優のような専門家の存在は欠かせません。声辞書は、声主から収録したサンプル音源をもとに機械学習と調整作業によって作られます。どんなに声主の演技の幅が広くても、それらすべてを単一の生成モデルとして機械学習させることはできないので、同じキャラクターの声でも複数の声辞書を用意することが想定されます。

違和感のないゲームキャラクターは実現可能か

合成音声のアクセントや声の高さ、声の太さ、間のとり方の調整には、一般的にSSML（Speech Synthesis Markup Language、音声合成マークアップ言語）や表音文字列といった調整機構が使われます。しかし、SSMLタグにはセリフが長くなるにつれて可読性が極端に低くなるという欠点があります。一方、表音文字列は可読性には優れていますが、細かいチューニングに手間と時間がかかりすぎるのがボトルネックです。

そこで近年、肉声の抑揚やテンポを真似させる「韻律射影」あるいは「韻律転移」と呼ばれる技術が注目されています。従来の音声合成は、入力テキストの言語解析と韻律制御によって無難な音程変化を自動生成しているのに対して、韻律射影を使った音声合成では肉声を直接入力できるのが特徴です。入力音声を韻律分析することで、声主の演技から音程変化を抽出して波形を生成するという仕組みです。これにより合成音声の作業効率を劇的に改善できるだけでなく、調整の幅が広がるという大きな利点があります。

どうしても合成音声だけで意図した音声を再現しきれない場合、生音声と合成音を適宜つなぎ合わせて発話させるケースもあるということです。特に、合成音声は叫び声や笑い声、泣き声のような言葉にならない音の生成には適していません。しかし、合成音声に肉声を組み込んで使う場合、どうしても音質の差異から違和感が生じてしまいます。この違和感を可能な限り軽減するためには、音声合成のサンプリングレートやキー、再生速度が生音声と一致するように調整する必要があるということでした。また、つなぎ目の無音部分が長すぎても不自然になってしまいます。

音声合成はキャラクターや演技の種類ごとに声辞書の作成が必要になるので、キャラクターの人数やセリフの量によっては、声優が直接演じた方がコストを抑えられるという状況も考えられます。現実的な実運用には、多様な声辞書のデータベースを構築することに加えて、前述の韻律射影によって生成された音声波形を韻律バンクとして蓄積することが重要になってきます。たとえば、異なる声辞書を使った複数のキャラクターに韻律バンクから同じ音声波形を適用すれば、セリフを読み上げる際のアクセントや抑揚のみをコピーできるというわけです。こうしたデータの再活用が音声合成の実用化において重要な鍵を握っています。

機械学習の発展に伴って音声合成が急速に進化しているといっても、現状でまったく違和感のないゲームキャラクターを実装するのは極めて難しい印象を受けます。しかし、前述したとおり音声合成の違和感とは適用先の特性に大きく依存しているので、使用目的や作品のコンテキストによっては現在のレベルでも十分に応用可能だろうということでした。たとえば、キャラクターそのものが人工知能やアンドロイドだったり、ゲームの世界観がサイバーパンクだったりする場合は、多くのユーザーがすんなり受け入れられるのかもしれません。

Writer：Ritsuko Kawai / 河合律子