モリカトロン株式会社運営「エンターテインメント×AI」の最新情報をお届けするサイトです。

TAG LIST
ディープラーニング機械学習CGCGへの扉安藤幸央GANニューラルネットワーク月刊エンタメAIニュース強化学習三宅陽一郎音楽OpenAIモリカトロンAIラボインタビュー敵対的生成ネットワークQAスクウェア・エニックス河合律子シナリオNVIDIAFacebookキャラクターAIルールベースデバッグCEDEC2019プロシージャルDeepMind人工知能学会ビヘイビア・ツリーGoogleCEDEC2021CEDEC2020ゲームAI映画SIGGRAPH遺伝的アルゴリズム不完全情報ゲームメタAIナビゲーションAI森川幸人畳み込みニューラルネットワーク自然言語処理深層学習マイクロソフトAIと倫理グーグル自動生成GDC 2021GPT-3GDC 2019マルチエージェントVRボードゲームロボットStyleGANCNNVFXモリカトロンゲームプレイAIファッションアートHTN階層型タスクネットワークJSAI2020大内孝子TensorFlowMicrosoftイベントレポートテストプレイ水野勇太アニメーションガイスターNPCCLIPNFTtoio吉本幸記JSAI2021スポーツディープフェイクシムピープル汎用人工知能GDC Summereスポーツ対話型エージェントeSportsBLUE PROTOCOLシーマンAIアート小説DALL-EStyleGAN2AlphaZeroカメラ環世界中島秀之懐ゲーから辿るゲームAI技術史研究DARPAドローンシムシティAI美空ひばり手塚治虫Electronic Artsメタデータブロックチェーン通しプレイOpenAI Five本間翔太CM倫理ピクサーAdobeイーサリアム作曲中嶋謙互Amadeus CodeMicrosoft AzureアストロノーカキャリアナラティブAmazon音声認識ロボティクスPyTorchDQN眞鍋和子バンダイナムコスタジオUnity齊藤陽介マインクラフトお知らせサルでもわかる人工知能VAEUbisoftUbisoft La ForgeワークショップGenvid Technologies知識表現ウォッチドッグス レギオンIGDAどうぶつしょうぎジェイ・コウガミ音楽ストリーミングマシンラーニングクラウド斎藤由多加リトル・コンピュータ・ピープルコンピューティショナル・フォトグラフィーGPT-2完全情報ゲーム坂本洋典釜屋憲彦ウェイポイントパス検索藤澤仁生物学画像認識DeNA長谷洋平鴫原盛之masumi toyota宮路洋一TextWorldSIGGRAPH ASIAソニーGTC2021CycleGANフェイクニュースGPUALifeZork人工生命オルタナティヴ・マシンサウンドスケープMCS-AI動的連携モデルASBSマンガぱいどんTEZUKA2020ナビゲーションメッシュ松井俊浩スパーシャルAIマーケティングApex LegendsELIZANinjaコンピュータRPGアップルタウン物語KELDICメロディ言語ゲームTENTUPLAYLEFT 4 DEADMARVEL Future FightAstroタイムラプスEgo4Dバスキアバーチャルヒューマン日経イノベーション・ラボ敵対的強化学習階層型強化学習GOSU Data LabWANNGOSU Voice Assistant竹内将SenpAI.GGMobalytics馬淵浩希Cygames岡島学AWS Sagemaker映像セリア・ホデント形態素解析UXAWS Lambda誤字検出認知科学BERTゲームデザインSentencePieceLUMINOUS ENGINEプラチナエッグLuminous Productionsパターン・ランゲージ竹村也哉ちょまどボエダ・ゴティエビッグデータGOAPAdobe MAX 2021デジタルツインメタバース模倣学習NVIDIA OmniverseOmniverse AvatarFPSNVIDIA Rivaマルコフ決定過程NVIDIA MegatronNVIDIA Merlinスタンフォード大学NVIDIA Metropolisパラメータ設計テニスOmniverse Replicatorバランス調整レコメンドシステムNVIDIA DRIVE Sim協調フィルタリングNVIDIA Isaac Sim人狼知能テキサス大学軍事サイバーエージェントAlphaDogfight TrialsAI Messenger VoicebotエージェントシミュレーションOpenAI CodexStarCraft IIFuture of Life InstituteIntelLAIKARotomationドラゴンクエストライバルズ不確定ゲームDota 2モンテカルロ木探索ソーシャルゲームEmbeddingGTC2020NVIDIA MAXINE淡路滋ビデオ会議グリムノーツゴティエ・ボエダGautier Boeda階層的クラスタリングaiboJuliusSIETPRGバーチャル・ヒューマン・エージェントtoio SDK for Unityクーガー田中章愛石井敦銭起揚茂谷保伯MinecraftGDMC成沢理恵MITメディアラボ著作権マジック・リープMagic Leap OneMagendaノンファンジブルトークンDDSPサッカー里井大輝KaggleバスケットボールAssassin’s Creed OriginsSea of ThievesGEMS COMPANYmonoAI technologyアバター初音ミクOculus転移学習テストBaldur's Gate 3Candy Crush SagaSIGGRAPH ASIA 2020デバッギングBigGANMaterialGANリップシンキングRNNReBeL自動運転車VolvoRival Prakユービーアイソフト北尾まどかHALO将棋メタルギアソリッドVFSMナップサック問題汎用言語モデルSpotifyMITReplica StudioamuseChitrakar巡回セールスマン問題ジョルダン曲線5GMuZeroクラウドゲーミングRival Peak和田洋一リアリティ番組Stadiaジョンソン裕子MILEs対話エンジンインタラクティブ・ストリーミングインタラクティブ・メディアシーマン人工知能研究所Ludoゴブレット・ゴブラーズTransformerSIGGRAPH 2019ArtEmis絵画ARGROVERFAIRAIりんなチート検出オンラインカジノアップルRealFlowiPhoneシミュレーションDeep FluidsMeInGameAIGraphブレイン・コンピュータ・インタフェースBCILearning from Video予期知能ユクスキュルカント哲学ドラゴンクエストエージェントアーキテクチャPAIROCTOPATH TRAVELER西木康智OCTOPATH TRAVELER 大陸の覇者アルスエレクトロニカ2019StyleCLIPStyleRig逆転オセロニア奥村エルネスト純いただきストリート齋藤精一大森田不可止高橋智隆ロボユニザナック泉幸典仁井谷正充ロボコレ2019ぎゅわんぶらあ自己中心派Azure Machine Learning意思決定モデル脱出ゲームHybrid Reward ArchitectureウロチョロスSuper Phoenix理化学研究所Project Malmo教育Project PaidiaProject LookoutWatch ForBingLEFT ALIVE長谷川誠ジミ・ヘンドリックスBaby Xカート・コバーンロバート・ダウニー・Jr.エイミー・ワインハウスMagentaYouTubeダフト・パンクSFGlenn MarshallThe Age of A.I.Story2HallucinationレコメンデーションJukeboxテンセントSIFTDCGANMOBADANNCE人事ハーバード大学研修デューク大学mynet.aiローグライクゲームNetHack人工音声NeurIPS 2021はこだて未来大学プレイ動画ヒップホップサイレント映画NBA環境音現代アートエージェント粒子群最適化法進化差分法群知能下川大樹ウィル・ライト高津芳希大石真史BEiTレベルデザインDETRSporeAIボイスアクターデノイズ南カリフォルニア大学画像処理NVIDIA CanvasSentropyCPUDiscordCALMプログラミングソースコード生成GMAIシチズンデベロッパーTRPGGitHubウィザードリィMCN-AI連携モデルAI Dungeon西川善司並木幸介サムライスピリッツ森寅嘉ゼビウスSIGGRAPH 2021ストリートファイター半導体Topaz Video Enhance AI栗原聡DLSS山野辺一記NetEase大里飛鳥DynamixyzモーションキャプチャーU-Net13フェイズ構造アドベンチャーゲームADVXLandAGI手塚眞DEATH STRANDING不気味の谷Eric JohnsonOculus Questコジマプロダクション生体情報デシマエンジンインディーゲーム写真高橋ミレイ照明Maxim PeterJoshua Romoffハイパースケープ山崎陽斗深層強化学習立木創太バンダイナムコ研究所ミライ小町テスラGameGANELYZAパックマンTesla BotTesla AI Dayソサエティ5.0ELYZA DIGESTSIGGRAPH 2020バズグラフニュースタンテキ東芝DIB-R倉田宜典3D音声合成韻律射影広告韻律転移

【CEDEC2021】ゲームキャラクターの声を音声合成に置き換えるのは可能か

2021.10.15ゲーム

【CEDEC2021】ゲームキャラクターの声を音声合成に置き換えるのは可能か

近年、3Dグラフィックでデザインされたゲームキャラクターに生命を吹き込む声の演出は、小規模のスタジオやインディー開発者による作品を除いて、ほぼ当たり前のように実装される要素となりました。こうしたキャラクターボイスは、台本の作成、セリフの収録、ゲーム内での再生という流れで長らく実装されてきましたが、日進月歩の発展を続ける人工知能技術を活用しようとする新たな試みが国内外で活発化しています。

8月24日から8月26日までオンラインで開催された「コンピュータエンターテインメントデベロッパーズカンファレンス2021」(CEDEC2021)にて、スクウェア・エニックス AI&アーツ アルケミーの三宅陽一郎氏と、東芝デジタルソリューションズの倉田宜典氏による「学習ベースの自然な音声合成技術のキャラクターボイスの応用と実運用」というセッションを取材しました。

このセッションでは、ゲーム業界が音声合成技術に着目する背景と、機械学習モデルの導入によって急速に発展する音声合成技術の現状について語られました。自動音声案内や音声アシスタントとは異なり、ゲームキャラクターへの応用にはユーザーが違和感なく対話できるリアリティが重要視されることから、音声合成に求められるクオリティは他業界にくらべてはるかに高くなることが予想されます。スクウェア・エニックスが目指す自然言語で対話できるエンターテインメントAIは、はたして音声合成技術によって実現できるのか。その可能性と課題が垣間見える内容です。

なぜゲーム業界に音声合成技術が必要なのか

いまゲーム業界で音声合成の応用が注目される背景には、キャラクターのセリフやプレイヤーへの応答を自動生成できるプロシージャル技術の発展があります。台本として用意されている会話内容であれば従来どおり事前に収録できますが、ゲームキャラクターのアドリブともなれば音声合成による発話は避けて通れません。また、セリフの事前収録が不要になれば、開発中に生じるセリフの拡張や変更も容易になります。さらに、プレイヤーの状態や行動に依存した情報をセリフとして発話させることにも期待が寄せられています。

ゲーム作品において求められる音声合成のクオリティは、キャラクターの役割や特性によって異なります。たとえば、固有名詞を持たない汎用NPCであれば、あからさまな機械音声でない限り、ある程度ゲームの世界観に馴染んでいればおそらく違和感はありません。一方、物語の中枢を担う重要なキャラクターや、プレイヤーと長時間行動を共にするパートナーのようなキャラクターの場合は、キャラクター同士で調和したり、状況に応じて感情を込めたりできる発話が求められます。

それを実現するためには、開発者が意図した音声を合成できて、その機能をゲーム内容に合わせて後から調整できる仕組みが必要です。また、機械学習モデルを可能な限り透明化することで、意図した演出の成否に関わらず原因を追求できるような環境構築も重要だといいます。加えて、ゲーム開発をとおして出力された音声データは辞書として蓄積し、いつでも再利用できるような体制を整えたいとのこと。将来的には、それぞれのNPCがプレイヤーとの会話を即時生成でき、さらにはキャラクター同士でも自律的に会話できるような言語生成AIを実現したいということです。

音声合成の導入で声優が不要になるわけではない

音声合成の歴史は長く、古くは18世紀後半に作られた機械式音声合成にまでさかのぼります。現代の音声合成には、基本周波数の調整や声道モデルの調音プロセスを用いる「規則合成」、録音された音声の素片を連結する「波形接続型音声合成」、音声の特徴を学習させた生成モデルを使う「統計的パラメトリック音声合成」といった手法があります。

統計的パラメトリック音声合成に機械学習モデルが用いられたことをきっかけに、ここ20年ほどの間に音声合成は急速な発展を遂げたとされています。その先駆けとなったのが、1999年に提案された隠れマルコフモデル(HMM)を生成モデルとして活用した手法です。その後、2013年にディープニューラルネットワーク(DNN)を利用した生成モデルの登場で、それまでの機械的な音声と比べて極めて自然な音声合成が可能になりました。

基本的な仕組みは、自然言語の入力テキストから言語特徴量を解析し、そこから表音文字列のような中間言語を生成。最後にシンセサイザーモジュールで声辞書と呼ばれる生成モデルを元に合成音声が出力されるという流れです。最終的な音声合成のクオリティは、シンセサイザーモジュールで使われる声辞書に大きく依存しています。

そのため、声の素となる声辞書の方向性の検討や、声主候補の選定が非常に重要だということです。つまり、音声合成に多彩な表現力を追求するためには、声優のような専門家の存在は欠かせません。声辞書は、声主から収録したサンプル音源をもとに機械学習と調整作業によって作られます。どんなに声主の演技の幅が広くても、それらすべてを単一の生成モデルとして機械学習させることはできないので、同じキャラクターの声でも複数の声辞書を用意することが想定されます。

違和感のないゲームキャラクターは実現可能か

合成音声のアクセントや声の高さ、声の太さ、間のとり方の調整には、一般的にSSML(Speech Synthesis Markup Language、音声合成マークアップ言語)や表音文字列といった調整機構が使われます。しかし、SSMLタグにはセリフが長くなるにつれて可読性が極端に低くなるという欠点があります。一方、表音文字列は可読性には優れていますが、細かいチューニングに手間と時間がかかりすぎるのがボトルネックです。

そこで近年、肉声の抑揚やテンポを真似させる「韻律射影」あるいは「韻律転移」と呼ばれる技術が注目されています。従来の音声合成は、入力テキストの言語解析と韻律制御によって無難な音程変化を自動生成しているのに対して、韻律射影を使った音声合成では肉声を直接入力できるのが特徴です。入力音声を韻律分析することで、声主の演技から音程変化を抽出して波形を生成するという仕組みです。これにより合成音声の作業効率を劇的に改善できるだけでなく、調整の幅が広がるという大きな利点があります。

どうしても合成音声だけで意図した音声を再現しきれない場合、生音声と合成音を適宜つなぎ合わせて発話させるケースもあるということです。特に、合成音声は叫び声や笑い声、泣き声のような言葉にならない音の生成には適していません。しかし、合成音声に肉声を組み込んで使う場合、どうしても音質の差異から違和感が生じてしまいます。この違和感を可能な限り軽減するためには、音声合成のサンプリングレートやキー、再生速度が生音声と一致するように調整する必要があるということでした。また、つなぎ目の無音部分が長すぎても不自然になってしまいます。

音声合成はキャラクターや演技の種類ごとに声辞書の作成が必要になるので、キャラクターの人数やセリフの量によっては、声優が直接演じた方がコストを抑えられるという状況も考えられます。現実的な実運用には、多様な声辞書のデータベースを構築することに加えて、前述の韻律射影によって生成された音声波形を韻律バンクとして蓄積することが重要になってきます。たとえば、異なる声辞書を使った複数のキャラクターに韻律バンクから同じ音声波形を適用すれば、セリフを読み上げる際のアクセントや抑揚のみをコピーできるというわけです。こうしたデータの再活用が音声合成の実用化において重要な鍵を握っています。

機械学習の発展に伴って音声合成が急速に進化しているといっても、現状でまったく違和感のないゲームキャラクターを実装するのは極めて難しい印象を受けます。しかし、前述したとおり音声合成の違和感とは適用先の特性に大きく依存しているので、使用目的や作品のコンテキストによっては現在のレベルでも十分に応用可能だろうということでした。たとえば、キャラクターそのものが人工知能やアンドロイドだったり、ゲームの世界観がサイバーパンクだったりする場合は、多くのユーザーがすんなり受け入れられるのかもしれません。

Writer:Ritsuko Kawai / 河合律子

RELATED ARTICLE関連記事

完全自動デバッグAIや格闘ゲーム接待AIの実現に向けたモリカトロンの挑戦 #CEDEC2020

2020.8.31ゲーム

完全自動デバッグAIや格闘ゲーム接待AIの実現に向けたモリカトロンの挑戦 #CE...

【CEDEC2019】人工知能にテストプレイを丸投げできるか?

2019.9.24ゲーム

【CEDEC2019】人工知能にテストプレイを丸投げできるか?

AIにも泣けるストーリーは書ける?:藤澤仁氏×森川幸人氏対談(前編)

2019.10.08ゲーム

AIにも泣けるストーリーは書ける?:藤澤仁氏×森川幸人氏対談(前編)

RANKING注目の記事はこちら