モリカトロン株式会社運営「エンターテインメント×AI」の最新情報をお届けするサイトです。

TAG LIST
CG機械学習ディープラーニングCGへの扉安藤幸央GAN月刊エンタメAIニュースニューラルネットワーク河合律子NVIDIA強化学習三宅陽一郎OpenAI音楽FacebookQAスクウェア・エニックスモリカトロンAIラボインタビュー敵対的生成ネットワーク森川幸人ルールベースDeepMindキャラクターAIシナリオNFTGPT-3デバッグCEDEC2019プロシージャル自動生成人工知能学会映画遺伝的アルゴリズムメタAI自然言語処理深層学習マイクロソフトビヘイビア・ツリー吉本幸記GoogleStyleGANCEDEC2021CEDEC2020ゲームAISIGGRAPH不完全情報ゲームナビゲーションAI畳み込みニューラルネットワークAIと倫理アートグーグルディープフェイクGDC 2021大内孝子VFXメタバースGDC 2019マルチエージェントゲームプレイAIVRボードゲームNPCDALL-EロボットCNNモリカトロンCLIPファッションHTN階層型タスクネットワークJSAI2020TensorFlowMicrosoftイベントレポートデジタルツインテストプレイUnityAIアート水野勇太小説アニメーションガイスターStyleGAN2懐ゲーから辿るゲームAI技術史toioJSAI2021スポーツ研究シムピープル汎用人工知能GDC Summerバーチャルヒューマンブロックチェーン倫理Adobeアストロノーカeスポーツ対話型エージェントAmazoneSportsBLUE PROTOCOLシーマンUbisoftAlphaZeroTransformerGPT-2カメラ環世界中島秀之鴫原盛之ソニーDARPAドローンシムシティAI美空ひばり手塚治虫Electronic ArtsメタデータLEFT 4 DEAD通しプレイOpenAI Five本間翔太CMピクサーBERTプラチナエッグイーサリアム作曲ビッグデータ中嶋謙互Amadeus CodeMicrosoft AzureキャリアNVIDIA OmniverseナラティブレコメンドシステムNVIDIA DRIVE SimNVIDIA Isaac Simサイバーエージェント音声認識ロボティクスPyTorchDQN眞鍋和子バンダイナムコスタジオMinecraft齊藤陽介マインクラフトお知らせチャットボットアバターサルでもわかる人工知能VAEUbisoft La Forge自動運転車ワークショップGenvid Technologiesメタ知識表現ウォッチドッグス レギオンIGDAどうぶつしょうぎジェイ・コウガミ音楽ストリーミングマシンラーニング画像生成テキスト画像生成クラウド対話エンジン斎藤由多加リトル・コンピュータ・ピープルコンピューティショナル・フォトグラフィーゴブレット・ゴブラーズ絵画AIりんなシミュレーション完全情報ゲーム坂本洋典釜屋憲彦ウェイポイントパス検索藤澤仁生物学GTC 2022画像認識GTC2022DeNA長谷洋平masumi toyota宮路洋一OpenSeaGDC 2022教育TextWorldSIGGRAPH ASIADALL-E2GTC2021CycleGANNetHackフェイクニュースエージェントAIボイスアクターNVIDIA CanvasGPUALifeZork人工生命オルタナティヴ・マシンサウンドスケープMCS-AI動的連携モデルASBSマンガモーションキャプチャーぱいどんTEZUKA2020ナビゲーションメッシュ松井俊浩バンダイナムコ研究所スパーシャルAIELYZAELYZA DIGEST3D音声合成マーケティングApex LegendsELIZANinjaコンピュータRPGアップルタウン物語KELDICメロディ言語ゲームTENTUPLAYMARVEL Future FightAstroタイムラプスEgo4Dインタビューバスキア日経イノベーション・ラボ敵対的強化学習階層型強化学習GOSU Data LabWANNGOSU Voice Assistant竹内将SenpAI.GGMobalytics馬淵浩希Cygames岡島学AWS Sagemaker映像セリア・ホデント形態素解析UXAWS Lambda誤字検出認知科学ゲームデザインSentencePieceLUMINOUS ENGINELuminous Productionsパターン・ランゲージ竹村也哉ちょまどボエダ・ゴティエGOAPAdobe MAX 2021模倣学習Omniverse AvatarFPSNVIDIA Rivaマルコフ決定過程NVIDIA MegatronNVIDIA Merlinスタンフォード大学NVIDIA Metropolisパラメータ設計テニスOmniverse Replicatorバランス調整協調フィルタリング人狼知能テキサス大学軍事AlphaDogfight TrialsAI Messenger VoicebotエージェントシミュレーションOpenAI CodexStarCraft IIHyperStyleFuture of Life InstituteRendering with StyleIntelDisneyLAIKADisneyリサーチRotomationGauGANGauGAN2ドラゴンクエストライバルズ画像言語表現モデル不確定ゲームSIGGRAPH ASIA 2021Dota 2モンテカルロ木探索ディズニーリサーチMitsuba2ソーシャルゲームEmbeddingワイツマン科学研究所GTC2020CG衣装NVIDIA MAXINEVRファッション淡路滋ビデオ会議ArtflowグリムノーツEponymゴティエ・ボエダ音声クローニングGautier Boeda階層的クラスタリングGopheraibo合成音声JuliusSIE鑑定TPRGOxia Palusバーチャル・ヒューマン・エージェントtoio SDK for UnityArt Recognitionクーガー田中章愛Meta石井敦銭起揚NHC 2021茂谷保伯池田利夫GDMC新刊案内マーベル・シネマティック・ユニバース成沢理恵MITメディアラボMCU著作権アベンジャーズマジック・リープDigital DomainMagic Leap OneMagendaMasquerade2.0ノンファンジブルトークンDDSPフェイシャルキャプチャーサッカーモリカトロン開発者インタビュー里井大輝Kaggle宮本茂則バスケットボール山田暉Assassin’s Creed OriginsAI会話ジェネレーターSea of ThievesGEMS COMPANYmonoAI technologyLSTMモリカトロンAIソリューション初音ミクOculusコード生成AI転移学習テストAlphaCodeBaldur's Gate 3CodeforcesCandy Crush Saga自己増強型AISIGGRAPH ASIA 2020COLMAPADOPデバッギングBigGANGANverse3DMaterialGANOmniverseリップシンキングRNNグランツーリスモSPORTReBeLグランツーリスモ・ソフィーGTソフィーVolvoFIAグランツーリスモチャンピオンシップRival PrakDGX A100VTuberユービーアイソフトWebcam VTuber星新一賞北尾まどかHALO市場分析将棋メタルギアソリッドVフォートナイトFSMEpic GamesRobloxナップサック問題Live Nation汎用言語モデルWeb3.0AIOpsSpotifyMITスマートコントラクトReplica StudioAWSamuseChitrakarQosmo巡回セールスマン問題徳井直生ジョルダン曲線メディア5GMuZero政治クラウドゲーミングRival Peakがんばれ森川君2号和田洋一リアリティ番組Stadiaジョンソン裕子MILEsNightCafeインタラクティブ・ストリーミングLuis Ruizインタラクティブ・メディアポケモンCodexシーマン人工知能研究所東京工業大学Ludo博報堂ラップSIGGRAPH 2019ArtEmisZ世代AIラッパーシステムARrinnaGROVERプラスリンクス ~キミと繋がる想い~FAIRSTCチート検出Style Transfer ConversationオンラインカジノRCPアップルRealFlowRinna Character PlatformiPhoneデジタルヒューマンDeep FluidsSoul MachinesMeInGameAmeliaAIGraphブレイン・コンピュータ・インタフェースバーチャルキャラクターBCIGateboxLearning from VideoANIMAK予期知能逢妻ヒカリセコムユクスキュルバーチャル警備システムカント損保ジャパン哲学対談上原利之ドラゴンクエストエージェントアーキテクチャアッパーグラウンドPAIROCTOPATH TRAVELER西木康智OCTOPATH TRAVELER 大陸の覇者Siemensアルスエレクトロニカ2019StyleCLIP品質保証StyleRigAutodesk逆転オセロニアBentley Systemsワールドシミュレーター奥村エルネスト純いただきストリートH100齋藤精一大森田不可止COBOL高橋智隆DGX H100ロボユニザナックDGX SuperPOD泉幸典仁井谷正充クラウドコンピューティングロボコレ2019Instant NeRFartonomousbitGANsぎゅわんぶらあ自己中心派Azure Machine Learning意思決定モデル脱出ゲームHybrid Reward Architectureコミュニティ管理ウロチョロスSuper PhoenixSNS理化学研究所Project Malmoオンラインゲーム気候変動Project PaidiaEarth-2Project Lookoutマックス・プランク気象研究所Watch Forビョルン・スティーブンスBing気象モデルLEFT ALIVE気象シミュレーション長谷川誠ジミ・ヘンドリックス環境問題Baby Xカート・コバーンエコロジーロバート・ダウニー・Jr.エイミー・ワインハウスSDGsMagentaYouTubeダフト・パンクメモリスタSFGlenn MarshallELYZA PencilThe Age of A.I.Story2Hallucination音声変換レコメンデーションJukebox松尾豊Veap JapanEAPテンセントSIFT福井千春DCGAN医療MOBADANNCEメンタルケア人事ハーバード大学Edgar Handy研修デューク大学Netflixデータマイニングmynet.aiローグライクゲーム東京大学東京理科大学人工音声NeurIPS 2021産業技術総合研究所はこだて未来大学リザバーコンピューティングプレイ動画ヒップホップキャラクターモーションソニーマーケティングサイレント映画もじぱNBA環境音暗号通貨現代アートFUZZLEAlteration粒子群最適化法RPG進化差分法オープンワールド群知能下川大樹AIFAウィル・ライト高津芳希P2E大石真史BEiTレベルデザインDETRSporeデノイズ南カリフォルニア大学画像処理SentropyCPUDiscordCALMプログラミングソースコード生成GMAIシチズンデベロッパーTRPGGitHubウィザードリィMCN-AI連携モデルAI Dungeon西川善司並木幸介サムライスピリッツ森寅嘉ゼビウスSIGGRAPH 2021ストリートファイター半導体Topaz Video Enhance AI栗原聡DLSS山野辺一記NetEase大里飛鳥DynamixyzU-Net13フェイズ構造アドベンチャーゲームADVXLandAGI手塚眞DEATH STRANDING不気味の谷Eric JohnsonOculus Questコジマプロダクション生体情報デシマエンジンインディーゲーム写真高橋ミレイ照明Maxim PeterJoshua Romoffハイパースケープ山崎陽斗深層強化学習立木創太ミライ小町テスラGameGANパックマンTesla BotTesla AI Dayソサエティ5.0SIGGRAPH 2020バズグラフニュースタンテキ東芝DIB-R倉田宜典韻律射影広告韻律転移

【CEDEC2021】ゲームキャラクターの声を音声合成に置き換えるのは可能か

2021.10.15ゲーム

【CEDEC2021】ゲームキャラクターの声を音声合成に置き換えるのは可能か

近年、3Dグラフィックでデザインされたゲームキャラクターに生命を吹き込む声の演出は、小規模のスタジオやインディー開発者による作品を除いて、ほぼ当たり前のように実装される要素となりました。こうしたキャラクターボイスは、台本の作成、セリフの収録、ゲーム内での再生という流れで長らく実装されてきましたが、日進月歩の発展を続ける人工知能技術を活用しようとする新たな試みが国内外で活発化しています。

8月24日から8月26日までオンラインで開催された「コンピュータエンターテインメントデベロッパーズカンファレンス2021」(CEDEC2021)にて、スクウェア・エニックス AI&アーツ アルケミーの三宅陽一郎氏と、東芝デジタルソリューションズの倉田宜典氏による「学習ベースの自然な音声合成技術のキャラクターボイスの応用と実運用」というセッションを取材しました。

このセッションでは、ゲーム業界が音声合成技術に着目する背景と、機械学習モデルの導入によって急速に発展する音声合成技術の現状について語られました。自動音声案内や音声アシスタントとは異なり、ゲームキャラクターへの応用にはユーザーが違和感なく対話できるリアリティが重要視されることから、音声合成に求められるクオリティは他業界にくらべてはるかに高くなることが予想されます。スクウェア・エニックスが目指す自然言語で対話できるエンターテインメントAIは、はたして音声合成技術によって実現できるのか。その可能性と課題が垣間見える内容です。

なぜゲーム業界に音声合成技術が必要なのか

いまゲーム業界で音声合成の応用が注目される背景には、キャラクターのセリフやプレイヤーへの応答を自動生成できるプロシージャル技術の発展があります。台本として用意されている会話内容であれば従来どおり事前に収録できますが、ゲームキャラクターのアドリブともなれば音声合成による発話は避けて通れません。また、セリフの事前収録が不要になれば、開発中に生じるセリフの拡張や変更も容易になります。さらに、プレイヤーの状態や行動に依存した情報をセリフとして発話させることにも期待が寄せられています。

ゲーム作品において求められる音声合成のクオリティは、キャラクターの役割や特性によって異なります。たとえば、固有名詞を持たない汎用NPCであれば、あからさまな機械音声でない限り、ある程度ゲームの世界観に馴染んでいればおそらく違和感はありません。一方、物語の中枢を担う重要なキャラクターや、プレイヤーと長時間行動を共にするパートナーのようなキャラクターの場合は、キャラクター同士で調和したり、状況に応じて感情を込めたりできる発話が求められます。

それを実現するためには、開発者が意図した音声を合成できて、その機能をゲーム内容に合わせて後から調整できる仕組みが必要です。また、機械学習モデルを可能な限り透明化することで、意図した演出の成否に関わらず原因を追求できるような環境構築も重要だといいます。加えて、ゲーム開発をとおして出力された音声データは辞書として蓄積し、いつでも再利用できるような体制を整えたいとのこと。将来的には、それぞれのNPCがプレイヤーとの会話を即時生成でき、さらにはキャラクター同士でも自律的に会話できるような言語生成AIを実現したいということです。

音声合成の導入で声優が不要になるわけではない

音声合成の歴史は長く、古くは18世紀後半に作られた機械式音声合成にまでさかのぼります。現代の音声合成には、基本周波数の調整や声道モデルの調音プロセスを用いる「規則合成」、録音された音声の素片を連結する「波形接続型音声合成」、音声の特徴を学習させた生成モデルを使う「統計的パラメトリック音声合成」といった手法があります。

統計的パラメトリック音声合成に機械学習モデルが用いられたことをきっかけに、ここ20年ほどの間に音声合成は急速な発展を遂げたとされています。その先駆けとなったのが、1999年に提案された隠れマルコフモデル(HMM)を生成モデルとして活用した手法です。その後、2013年にディープニューラルネットワーク(DNN)を利用した生成モデルの登場で、それまでの機械的な音声と比べて極めて自然な音声合成が可能になりました。

基本的な仕組みは、自然言語の入力テキストから言語特徴量を解析し、そこから表音文字列のような中間言語を生成。最後にシンセサイザーモジュールで声辞書と呼ばれる生成モデルを元に合成音声が出力されるという流れです。最終的な音声合成のクオリティは、シンセサイザーモジュールで使われる声辞書に大きく依存しています。

そのため、声の素となる声辞書の方向性の検討や、声主候補の選定が非常に重要だということです。つまり、音声合成に多彩な表現力を追求するためには、声優のような専門家の存在は欠かせません。声辞書は、声主から収録したサンプル音源をもとに機械学習と調整作業によって作られます。どんなに声主の演技の幅が広くても、それらすべてを単一の生成モデルとして機械学習させることはできないので、同じキャラクターの声でも複数の声辞書を用意することが想定されます。

違和感のないゲームキャラクターは実現可能か

合成音声のアクセントや声の高さ、声の太さ、間のとり方の調整には、一般的にSSML(Speech Synthesis Markup Language、音声合成マークアップ言語)や表音文字列といった調整機構が使われます。しかし、SSMLタグにはセリフが長くなるにつれて可読性が極端に低くなるという欠点があります。一方、表音文字列は可読性には優れていますが、細かいチューニングに手間と時間がかかりすぎるのがボトルネックです。

そこで近年、肉声の抑揚やテンポを真似させる「韻律射影」あるいは「韻律転移」と呼ばれる技術が注目されています。従来の音声合成は、入力テキストの言語解析と韻律制御によって無難な音程変化を自動生成しているのに対して、韻律射影を使った音声合成では肉声を直接入力できるのが特徴です。入力音声を韻律分析することで、声主の演技から音程変化を抽出して波形を生成するという仕組みです。これにより合成音声の作業効率を劇的に改善できるだけでなく、調整の幅が広がるという大きな利点があります。

どうしても合成音声だけで意図した音声を再現しきれない場合、生音声と合成音を適宜つなぎ合わせて発話させるケースもあるということです。特に、合成音声は叫び声や笑い声、泣き声のような言葉にならない音の生成には適していません。しかし、合成音声に肉声を組み込んで使う場合、どうしても音質の差異から違和感が生じてしまいます。この違和感を可能な限り軽減するためには、音声合成のサンプリングレートやキー、再生速度が生音声と一致するように調整する必要があるということでした。また、つなぎ目の無音部分が長すぎても不自然になってしまいます。

音声合成はキャラクターや演技の種類ごとに声辞書の作成が必要になるので、キャラクターの人数やセリフの量によっては、声優が直接演じた方がコストを抑えられるという状況も考えられます。現実的な実運用には、多様な声辞書のデータベースを構築することに加えて、前述の韻律射影によって生成された音声波形を韻律バンクとして蓄積することが重要になってきます。たとえば、異なる声辞書を使った複数のキャラクターに韻律バンクから同じ音声波形を適用すれば、セリフを読み上げる際のアクセントや抑揚のみをコピーできるというわけです。こうしたデータの再活用が音声合成の実用化において重要な鍵を握っています。

機械学習の発展に伴って音声合成が急速に進化しているといっても、現状でまったく違和感のないゲームキャラクターを実装するのは極めて難しい印象を受けます。しかし、前述したとおり音声合成の違和感とは適用先の特性に大きく依存しているので、使用目的や作品のコンテキストによっては現在のレベルでも十分に応用可能だろうということでした。たとえば、キャラクターそのものが人工知能やアンドロイドだったり、ゲームの世界観がサイバーパンクだったりする場合は、多くのユーザーがすんなり受け入れられるのかもしれません。

Writer:Ritsuko Kawai / 河合律子

RELATED ARTICLE関連記事

【GDC 2019】没入感の追求がたどり着く先は、自然言語処理によるAIとの対話

2019.4.17ゲーム

【GDC 2019】没入感の追求がたどり着く先は、自然言語処理によるAIとの対話

【CEDEC2021】ゲーム制作をAIで効率化するCygamesのチャレンジ

2021.10.26ゲーム

【CEDEC2021】ゲーム制作をAIで効率化するCygamesのチャレンジ

【GDC 2022】オンラインコミュニティの健全な運営にAIはいかに貢献できるか

2022.4.19ゲーム

【GDC 2022】オンラインコミュニティの健全な運営にAIはいかに貢献できるか

RANKING注目の記事はこちら