モリカトロン株式会社運営「エンターテインメント×AI」の最新情報をお届けするサイトです。

TAG LIST
CG機械学習CGへの扉ディープラーニング安藤幸央GAN月刊エンタメAIニュース河合律子OpenAI音楽NVIDIAニューラルネットワーク強化学習三宅陽一郎吉本幸記Facebook人工知能学会自然言語処理大内孝子QA敵対的生成ネットワークGoogleGPT-3キャラクターAIスクウェア・エニックス森川幸人モリカトロンAIラボインタビュールールベースDeepMindシナリオAIと倫理グーグル映画倫理NFTDALL-E2StyleGAN自動生成デバッグゲームプレイAIメタAIロボット深層学習マイクロソフトCEDEC2019アートプロシージャルSIGGRAPH遺伝的アルゴリズムDALL-Eテキスト画像生成ビヘイビア・ツリーディープフェイクCEDEC2021CEDEC2020ゲームAIデジタルツインメタバース不完全情報ゲームVRナビゲーションAINPC畳み込みニューラルネットワークCLIPGDC 2021JSAI2022VFXGDC 2019マルチエージェントCEDEC2022ボードゲーム画像生成ファッション懐ゲーから辿るゲームAI技術史toioCNNAdobeテストプレイモリカトロンStable DiffusionUnity著作権AIアート小説鴫原盛之HTN階層型タスクネットワークJSAI2020TensorFlowBERTMicrosoftイベントレポート対話型エージェントロボティクス水野勇太アニメーションGenvid Technologiesガイスター画像生成AIStyleGAN2GTC2022教育ソニーJSAI2021スポーツ研究シムピープルマンガ汎用人工知能マーケティングGDC SummerインタビューバーチャルヒューマンブロックチェーンMidjourneyアストロノーカキャリアNVIDIA OmniverseeスポーツAmazoneSportsDQNBLUE PROTOCOLシーマンMinecraftアバターOmniverseUbisoftメタAlphaZeroTransformerGPT-2AIりんなカメラ環世界中島秀之哲学理化学研究所DARPAドローンシムシティImagenバイアスMCS-AI動的連携モデルモーションキャプチャーTEZUKA2020AI美空ひばり手塚治虫バンダイナムコ研究所スパーシャルAIElectronic ArtsメタデータLEFT 4 DEAD通しプレイOpenAI Five本間翔太CMピクサープラチナエッグイーサリアム作曲ボエダ・ゴティエビッグデータ中嶋謙互Amadeus Codeデータ分析Microsoft AzureMILEナラティブアーケードゲームOmniverse ReplicatorWCCFレコメンドシステムNVIDIA DRIVE SimWORLD CLUB Champion FootballNVIDIA Isaac Simセガ柏田知大軍事サイバーエージェント田邊雅彦トレーディングカードトレカ音声認識PyTorch眞鍋和子バンダイナムコスタジオaibo合成音声Meta齊藤陽介マインクラフトお知らせMagic Leap Oneチャットボットサルでもわかる人工知能VAE3DCGリップシンキングUbisoft La Forge自動運転車ワークショップ知識表現ウォッチドッグス レギオンIGDA秋期GTC2022どうぶつしょうぎEpic Gamesジェイ・コウガミ音楽ストリーミングMITAIロボ「迷キュー」に挑戦野々下裕子徳井直生マシンラーニング5GRival Peakクラウド対話エンジン斎藤由多加リトル・コンピュータ・ピープルコンピューティショナル・フォトグラフィーゴブレット・ゴブラーズ絵画rinnaシミュレーションデジタルヒューマン完全情報ゲーム坂本洋典釜屋憲彦ウェイポイントパス検索対談藤澤仁生物学GTC 2022画像認識SiemensStyleCLIPDeNA長谷洋平masumi toyota宮路洋一OpenSeaGDC 2022TextWorldSIGGRAPH ASIAEarth-2MagentaSFELYZA PencilGTC2021CycleGANデータマイニングNetHackはこだて未来大学キャラクターモーションフェイクニュースエージェントRPGSIGGRAPH 2022AIボイスアクターNVIDIA CanvasGPUALifeZork人工生命オルタナティヴ・マシンサウンドスケープASBS栗原聡ぱいどんテキスト生成不気味の谷ナビゲーションメッシュ松井俊浩ELYZAフルコトELYZA DIGEST3D音声合成西成活裕Apex LegendsELIZA群衆マネジメントNinjaコンピュータRPGライブビジネスアップルタウン物語新型コロナKELDIC周済涛メロディ言語清田陽司ゲームTENTUPLAYサイバネティックスMARVEL Future FightAstro人工知能史タイムラプスEgo4DAI哲学マップバスキア星新一日経イノベーション・ラボStyleGAN-XL敵対的強化学習StyleGAN3階層型強化学習GOSU Data LabGANimatorWANNGOSU Voice AssistantVoLux-GAN竹内将SenpAI.GGProjected GANMobalyticsSelf-Distilled StyleGAN馬淵浩希Cygamesニューラルレンダリング岡島学AWS SagemakerPLATO映像セリア・ホデント形態素解析frame.ioUXAWS LambdaFoodly誤字検出森山和道認知科学中川友紀子ゲームデザインSentencePieceアールティLUMINOUS ENGINELuminous ProductionsBlenderBot 3パターン・ランゲージ竹村也哉Meta AIちょまどマーク・ザッカーバーグGOAPWACULAdobe MAX 2021自動翻訳模倣学習AIライティングOmniverse AvatarAIのべりすとFPSNVIDIA RivaQuillBotマルコフ決定過程NVIDIA MegatronCopysmithNVIDIA MerlinJasperスタンフォード大学NVIDIA Metropolisパラメータ設計テニスバランス調整協調フィルタリング人狼知能テキサス大学AlphaDogfight TrialsAI Messenger VoicebotエージェントシミュレーションOpenAI CodexStarCraft IIHyperStyleMax CooperFuture of Life InstituteRendering with StyleメディアアートIntelDisney類家利直LAIKADisneyリサーチヴィトゲンシュタインRotomationGauGAN論理哲学論考GauGAN2京都芸術大学ドラゴンクエストライバルズ画像言語表現モデル不確定ゲームSIGGRAPH ASIA 2021PromptBaseDota 2モンテカルロ木探索ディズニーリサーチMitsuba2バンダイナムコネクサスソーシャルゲームEmbeddingワイツマン科学研究所ユーザーレビューGTC2020CG衣装mimicNVIDIA MAXINEVRファッションBaidu淡路滋ビデオ会議ArtflowERNIE-ViLGグリムノーツEponym古文書ゴティエ・ボエダ音声クローニング凸版印刷Gautier Boeda階層的クラスタリングGopherAI-OCR画像判定JuliusSIE鑑定ラベル付けTPRGOxia Palus大澤博隆バーチャル・ヒューマン・エージェントtoio SDK for UnityArt RecognitionSFプロトタイピングクーガー田中章愛実況パワフルサッカー石井敦銭起揚NHC 2021桃太郎電鉄茂谷保伯池田利夫桃鉄GDMC新刊案内パワサカマーベル・シネマティック・ユニバースコナミデジタルエンタテインメント成沢理恵MITメディアラボMCU岩倉宏介アベンジャーズPPOマジック・リープDigital DomainMachine Learning Project CanvasMagendaMasquerade2.0国立情報学研究所ノンファンジブルトークンDDSPフェイシャルキャプチャー石川冬樹サッカーモリカトロン開発者インタビュースパコン里井大輝Kaggle宮本茂則スーパーコンピュータバスケットボール山田暉松岡 聡Assassin’s Creed OriginsAI会話ジェネレーターTSUBAME 1.0Sea of ThievesTSUBAME 2.0GEMS COMPANYmonoAI technologyLSTMABCIモリカトロンAIソリューション富岳初音ミクOculusコード生成AISociety 5.0転移学習テストAlphaCode夏の電脳甲子園Baldur's Gate 3Codeforces座談会Candy Crush Saga自己増強型AItext-to-imageSIGGRAPH ASIA 2020COLMAPtext-to-3DADOPNVIDIA GET3DデバッギングBigGANGANverse3DDreamFusionMaterialGANRNNグランツーリスモSPORTAI絵師ReBeLグランツーリスモ・ソフィーUGCGTソフィーPGCVolvoFIAグランツーリスモチャンピオンシップStability AINovelAIRival PrakDGX A100NovelAI DiffusionVTuberユービーアイソフトWebcam VTuberモーションデータ星新一賞北尾まどかHALO市場分析ポーズ推定将棋メタルギアソリッドVフォートナイトメッシュ生成FSMメルセデス・ベンツRobloxMagic Leapナップサック問題Live NationEpyllion汎用言語モデルWeb3.0マシュー・ボールAIOpsムーアの法則SpotifyスマートコントラクトReplica StudioAWSamuseChitrakarQosmoAdobe MAX 2022巡回セールスマン問題Adobe MAXジョルダン曲線メディアAdobe ResearchMuZero政治Galacticaクラウドゲーミングがんばれ森川君2号pixiv和田洋一リアリティ番組映像解析Stadiaジョンソン裕子セキュリティMILEsNightCafe東芝デジタルソリューションズインタラクティブ・ストリーミングLuis RuizSATLYS 映像解析AIインタラクティブ・メディアポケモン3DスキャンCodexPFN 3D Scanシーマン人工知能研究所東京工業大学Ludo博報堂Preferred NetworksラップPFN 4D ScanSIGGRAPH 2019ArtEmisZ世代DreamUpAIラッパーシステムDeviantArtARWaifu DiffusionGROVERプラスリンクス ~キミと繋がる想い~元素法典FAIRSTCNovel AIチート検出Style Transfer ConversationOpen AIオンラインカジノRCPMicrosoft DesignerアップルRealFlowRinna Character PlatformイラストiPhoneCALADeep FluidsSoul Machines柿沼太一MeInGameAmeliaELSIAIGraphブレイン・コンピュータ・インタフェースバーチャルキャラクター大規模言語モデルBCIGateboxアフォーダンスLearning from VideoANIMAKPaLM-SayCan予期知能逢妻ヒカリPaLMセコムGitHub Copilotユクスキュルバーチャル警備システムCode as Policiesカント損保ジャパンCaP上原利之ドラゴンクエストエージェントアーキテクチャアッパーグラウンドPAIROCTOPATH TRAVELER西木康智OCTOPATH TRAVELER 大陸の覇者アルスエレクトロニカ2019品質保証StyleRigAutodesk逆転オセロニアBentley Systemsワールドシミュレーター奥村エルネスト純いただきストリートH100齋藤精一大森田不可止COBOL高橋智隆DGX H100ロボユニザナックDGX SuperPOD泉幸典仁井谷正充クラウドコンピューティングロボコレ2019Instant NeRFartonomousbitGANsぎゅわんぶらあ自己中心派Azure Machine Learning意思決定モデル脱出ゲームHybrid Reward Architectureコミュニティ管理ウロチョロスSuper PhoenixSNSProject Malmoオンラインゲーム気候変動Project PaidiaProject Lookoutマックス・プランク気象研究所Watch Forビョルン・スティーブンスBing気象モデルLEFT ALIVE気象シミュレーション長谷川誠ジミ・ヘンドリックス環境問題Baby Xカート・コバーンエコロジーロバート・ダウニー・Jr.エイミー・ワインハウスSDGsYouTubeダフト・パンクメモリスタGlenn MarshallThe Age of A.I.Story2Hallucination音声変換レコメンデーションJukebox松尾豊Veap JapanEAPテンセントSIFT福井千春DCGAN医療MOBADANNCEメンタルケア人事ハーバード大学Edgar Handy研修デューク大学Netflixmynet.aiローグライクゲーム東京大学東京理科大学人工音声NeurIPS 2021産業技術総合研究所リザバーコンピューティングプレイ動画ヒップホップソニーマーケティングサイレント映画もじぱNBA環境音暗号通貨現代アートFUZZLEAlteration粒子群最適化法進化差分法オープンワールド群知能下川大樹AIFAウィル・ライト高津芳希P2E大石真史BEiTStyleGAN-NADAレベルデザインDETRゲームエンジンSporeUnreal Engineデノイズ南カリフォルニア大学Unity for Industry画像処理SentropyGLIDECPUDiscordAvatarCLIPSynthetic DataCALMプログラミングサム・アルトマンソースコード生成LaMDAGMAIシチズンデベロッパーSonanticTRPGGitHubCohereウィザードリィMCN-AI連携モデルマジック:ザ・ギャザリングAI DungeonUrzas.ai介護西川善司並木幸介Kikiサムライスピリッツ森寅嘉Zoetic AIゼビウスSIGGRAPH 2021ペットストリートファイター半導体Digital Dream LabsTopaz Video Enhance AICozmoDLSSタカラトミー山野辺一記NetEaseLOVOT大里飛鳥DynamixyzMOFLINRomiU-Netミクシィ13フェイズ構造アドベンチャーゲームユニロボットADVユニボXLandGatoAGI手塚眞DEATH STRANDINGマルチモーダルEric Johnson汎用強化学習AIデザインOculus Questコジマプロダクションロンドン芸術大学生体情報デシマエンジンGoogle BrainインディーゲームSound Control写真高橋ミレイSYNTH SUPER照明Maxim PeterKarl SimsJoshua RomoffArtnomeハイパースケープICONATE山崎陽斗深層強化学習立木創太松原仁浜中雅俊ミライ小町武田英明テスラ福井健策GameGANパックマンTesla BotNEDOTesla AI DayWikipediaソサエティ5.0SphereSIGGRAPH 2020バズグラフXaver 1000ニュースタンテキ養蜂東芝BeewiseDIB-R倉田宜典フィンテック投資韻律射影MILIZE広告韻律転移三菱UFJ信託銀行

【CEDEC2021】ゲームキャラクターの声を音声合成に置き換えるのは可能か

2021.10.15ゲーム

【CEDEC2021】ゲームキャラクターの声を音声合成に置き換えるのは可能か

近年、3Dグラフィックでデザインされたゲームキャラクターに生命を吹き込む声の演出は、小規模のスタジオやインディー開発者による作品を除いて、ほぼ当たり前のように実装される要素となりました。こうしたキャラクターボイスは、台本の作成、セリフの収録、ゲーム内での再生という流れで長らく実装されてきましたが、日進月歩の発展を続ける人工知能技術を活用しようとする新たな試みが国内外で活発化しています。

8月24日から8月26日までオンラインで開催された「コンピュータエンターテインメントデベロッパーズカンファレンス2021」(CEDEC2021)にて、スクウェア・エニックス AI&アーツ アルケミーの三宅陽一郎氏と、東芝デジタルソリューションズの倉田宜典氏による「学習ベースの自然な音声合成技術のキャラクターボイスの応用と実運用」というセッションを取材しました。

このセッションでは、ゲーム業界が音声合成技術に着目する背景と、機械学習モデルの導入によって急速に発展する音声合成技術の現状について語られました。自動音声案内や音声アシスタントとは異なり、ゲームキャラクターへの応用にはユーザーが違和感なく対話できるリアリティが重要視されることから、音声合成に求められるクオリティは他業界にくらべてはるかに高くなることが予想されます。スクウェア・エニックスが目指す自然言語で対話できるエンターテインメントAIは、はたして音声合成技術によって実現できるのか。その可能性と課題が垣間見える内容です。

なぜゲーム業界に音声合成技術が必要なのか

いまゲーム業界で音声合成の応用が注目される背景には、キャラクターのセリフやプレイヤーへの応答を自動生成できるプロシージャル技術の発展があります。台本として用意されている会話内容であれば従来どおり事前に収録できますが、ゲームキャラクターのアドリブともなれば音声合成による発話は避けて通れません。また、セリフの事前収録が不要になれば、開発中に生じるセリフの拡張や変更も容易になります。さらに、プレイヤーの状態や行動に依存した情報をセリフとして発話させることにも期待が寄せられています。

ゲーム作品において求められる音声合成のクオリティは、キャラクターの役割や特性によって異なります。たとえば、固有名詞を持たない汎用NPCであれば、あからさまな機械音声でない限り、ある程度ゲームの世界観に馴染んでいればおそらく違和感はありません。一方、物語の中枢を担う重要なキャラクターや、プレイヤーと長時間行動を共にするパートナーのようなキャラクターの場合は、キャラクター同士で調和したり、状況に応じて感情を込めたりできる発話が求められます。

それを実現するためには、開発者が意図した音声を合成できて、その機能をゲーム内容に合わせて後から調整できる仕組みが必要です。また、機械学習モデルを可能な限り透明化することで、意図した演出の成否に関わらず原因を追求できるような環境構築も重要だといいます。加えて、ゲーム開発をとおして出力された音声データは辞書として蓄積し、いつでも再利用できるような体制を整えたいとのこと。将来的には、それぞれのNPCがプレイヤーとの会話を即時生成でき、さらにはキャラクター同士でも自律的に会話できるような言語生成AIを実現したいということです。

音声合成の導入で声優が不要になるわけではない

音声合成の歴史は長く、古くは18世紀後半に作られた機械式音声合成にまでさかのぼります。現代の音声合成には、基本周波数の調整や声道モデルの調音プロセスを用いる「規則合成」、録音された音声の素片を連結する「波形接続型音声合成」、音声の特徴を学習させた生成モデルを使う「統計的パラメトリック音声合成」といった手法があります。

統計的パラメトリック音声合成に機械学習モデルが用いられたことをきっかけに、ここ20年ほどの間に音声合成は急速な発展を遂げたとされています。その先駆けとなったのが、1999年に提案された隠れマルコフモデル(HMM)を生成モデルとして活用した手法です。その後、2013年にディープニューラルネットワーク(DNN)を利用した生成モデルの登場で、それまでの機械的な音声と比べて極めて自然な音声合成が可能になりました。

基本的な仕組みは、自然言語の入力テキストから言語特徴量を解析し、そこから表音文字列のような中間言語を生成。最後にシンセサイザーモジュールで声辞書と呼ばれる生成モデルを元に合成音声が出力されるという流れです。最終的な音声合成のクオリティは、シンセサイザーモジュールで使われる声辞書に大きく依存しています。

そのため、声の素となる声辞書の方向性の検討や、声主候補の選定が非常に重要だということです。つまり、音声合成に多彩な表現力を追求するためには、声優のような専門家の存在は欠かせません。声辞書は、声主から収録したサンプル音源をもとに機械学習と調整作業によって作られます。どんなに声主の演技の幅が広くても、それらすべてを単一の生成モデルとして機械学習させることはできないので、同じキャラクターの声でも複数の声辞書を用意することが想定されます。

違和感のないゲームキャラクターは実現可能か

合成音声のアクセントや声の高さ、声の太さ、間のとり方の調整には、一般的にSSML(Speech Synthesis Markup Language、音声合成マークアップ言語)や表音文字列といった調整機構が使われます。しかし、SSMLタグにはセリフが長くなるにつれて可読性が極端に低くなるという欠点があります。一方、表音文字列は可読性には優れていますが、細かいチューニングに手間と時間がかかりすぎるのがボトルネックです。

そこで近年、肉声の抑揚やテンポを真似させる「韻律射影」あるいは「韻律転移」と呼ばれる技術が注目されています。従来の音声合成は、入力テキストの言語解析と韻律制御によって無難な音程変化を自動生成しているのに対して、韻律射影を使った音声合成では肉声を直接入力できるのが特徴です。入力音声を韻律分析することで、声主の演技から音程変化を抽出して波形を生成するという仕組みです。これにより合成音声の作業効率を劇的に改善できるだけでなく、調整の幅が広がるという大きな利点があります。

どうしても合成音声だけで意図した音声を再現しきれない場合、生音声と合成音を適宜つなぎ合わせて発話させるケースもあるということです。特に、合成音声は叫び声や笑い声、泣き声のような言葉にならない音の生成には適していません。しかし、合成音声に肉声を組み込んで使う場合、どうしても音質の差異から違和感が生じてしまいます。この違和感を可能な限り軽減するためには、音声合成のサンプリングレートやキー、再生速度が生音声と一致するように調整する必要があるということでした。また、つなぎ目の無音部分が長すぎても不自然になってしまいます。

音声合成はキャラクターや演技の種類ごとに声辞書の作成が必要になるので、キャラクターの人数やセリフの量によっては、声優が直接演じた方がコストを抑えられるという状況も考えられます。現実的な実運用には、多様な声辞書のデータベースを構築することに加えて、前述の韻律射影によって生成された音声波形を韻律バンクとして蓄積することが重要になってきます。たとえば、異なる声辞書を使った複数のキャラクターに韻律バンクから同じ音声波形を適用すれば、セリフを読み上げる際のアクセントや抑揚のみをコピーできるというわけです。こうしたデータの再活用が音声合成の実用化において重要な鍵を握っています。

機械学習の発展に伴って音声合成が急速に進化しているといっても、現状でまったく違和感のないゲームキャラクターを実装するのは極めて難しい印象を受けます。しかし、前述したとおり音声合成の違和感とは適用先の特性に大きく依存しているので、使用目的や作品のコンテキストによっては現在のレベルでも十分に応用可能だろうということでした。たとえば、キャラクターそのものが人工知能やアンドロイドだったり、ゲームの世界観がサイバーパンクだったりする場合は、多くのユーザーがすんなり受け入れられるのかもしれません。

Writer:Ritsuko Kawai / 河合律子

RELATED ARTICLE関連記事

モリカトロンとAIが切り開くゲーム開発のフロンティア:森川幸人氏インタビュー

2019.4.23ゲーム

モリカトロンとAIが切り開くゲーム開発のフロンティア:森川幸人氏インタビュー

Ubisoft La Forgeの研究成果が示すゲームにおける機械学習の未来

2019.6.04ゲーム

Ubisoft La Forgeの研究成果が示すゲームにおける機械学習の未来

AIが弱点の発見や戦術をアドバイスするeスポーツコーチングAIの台頭

2021.10.25ゲーム

AIが弱点の発見や戦術をアドバイスするeスポーツコーチングAIの台頭

RANKING注目の記事はこちら