モリカトロン株式会社運営「エンターテインメント×AI」の最新情報をお届けするサイトです。

TAG LIST
CG機械学習CGへの扉ディープラーニング安藤幸央GAN月刊エンタメAIニュース河合律子OpenAI音楽NVIDIAニューラルネットワーク強化学習三宅陽一郎吉本幸記Facebook人工知能学会自然言語処理大内孝子QA敵対的生成ネットワークGoogleGPT-3キャラクターAIスクウェア・エニックス森川幸人モリカトロンAIラボインタビュールールベースDeepMindシナリオAIと倫理グーグル映画倫理NFTDALL-E2StyleGAN自動生成デバッグゲームプレイAIメタAIロボット深層学習マイクロソフトCEDEC2019アートプロシージャルSIGGRAPH遺伝的アルゴリズムDALL-Eテキスト画像生成ビヘイビア・ツリーディープフェイクCEDEC2021CEDEC2020ゲームAIデジタルツインメタバース不完全情報ゲームVRナビゲーションAINPC畳み込みニューラルネットワークCLIPGDC 2021JSAI2022VFXGDC 2019マルチエージェントCEDEC2022ボードゲーム画像生成ファッション懐ゲーから辿るゲームAI技術史toioCNNAdobeテストプレイモリカトロンStable DiffusionUnity著作権AIアート小説鴫原盛之HTN階層型タスクネットワークJSAI2020TensorFlowBERTMicrosoftイベントレポート対話型エージェントロボティクス水野勇太アニメーションGenvid Technologiesガイスター画像生成AIStyleGAN2GTC2022教育ソニーJSAI2021スポーツ研究シムピープルマンガ汎用人工知能マーケティングGDC SummerインタビューバーチャルヒューマンブロックチェーンMidjourneyアストロノーカキャリアNVIDIA OmniverseeスポーツAmazoneSportsDQNBLUE PROTOCOLシーマンMinecraftアバターOmniverseUbisoftメタAlphaZeroTransformerGPT-2AIりんなカメラ環世界中島秀之哲学理化学研究所DARPAドローンシムシティImagenバイアスMCS-AI動的連携モデルモーションキャプチャーTEZUKA2020AI美空ひばり手塚治虫バンダイナムコ研究所スパーシャルAIElectronic ArtsメタデータLEFT 4 DEAD通しプレイOpenAI Five本間翔太CMピクサープラチナエッグイーサリアム作曲ボエダ・ゴティエビッグデータ中嶋謙互Amadeus Codeデータ分析Microsoft AzureMILEナラティブアーケードゲームOmniverse ReplicatorWCCFレコメンドシステムNVIDIA DRIVE SimWORLD CLUB Champion FootballNVIDIA Isaac Simセガ柏田知大軍事サイバーエージェント田邊雅彦トレーディングカードトレカ音声認識PyTorch眞鍋和子バンダイナムコスタジオaibo合成音声Meta齊藤陽介マインクラフトお知らせMagic Leap Oneチャットボットサルでもわかる人工知能VAE3DCGリップシンキングUbisoft La Forge自動運転車ワークショップ知識表現ウォッチドッグス レギオンIGDA秋期GTC2022どうぶつしょうぎEpic Gamesジェイ・コウガミ音楽ストリーミングMITAIロボ「迷キュー」に挑戦野々下裕子徳井直生マシンラーニング5GRival Peakクラウド対話エンジン斎藤由多加リトル・コンピュータ・ピープルコンピューティショナル・フォトグラフィーゴブレット・ゴブラーズ絵画rinnaシミュレーションデジタルヒューマン完全情報ゲーム坂本洋典釜屋憲彦ウェイポイントパス検索対談藤澤仁生物学GTC 2022画像認識SiemensStyleCLIPDeNA長谷洋平masumi toyota宮路洋一OpenSeaGDC 2022TextWorldSIGGRAPH ASIAEarth-2MagentaSFELYZA PencilGTC2021CycleGANデータマイニングNetHackはこだて未来大学キャラクターモーションフェイクニュースエージェントRPGSIGGRAPH 2022AIボイスアクターNVIDIA CanvasGPUALifeZork人工生命オルタナティヴ・マシンサウンドスケープASBS栗原聡ぱいどんテキスト生成不気味の谷ナビゲーションメッシュ松井俊浩ELYZAフルコトELYZA DIGEST3D音声合成西成活裕Apex LegendsELIZA群衆マネジメントNinjaコンピュータRPGライブビジネスアップルタウン物語新型コロナKELDIC周済涛メロディ言語清田陽司ゲームTENTUPLAYサイバネティックスMARVEL Future FightAstro人工知能史タイムラプスEgo4DAI哲学マップバスキア星新一日経イノベーション・ラボStyleGAN-XL敵対的強化学習StyleGAN3階層型強化学習GOSU Data LabGANimatorWANNGOSU Voice AssistantVoLux-GAN竹内将SenpAI.GGProjected GANMobalyticsSelf-Distilled StyleGAN馬淵浩希Cygamesニューラルレンダリング岡島学AWS SagemakerPLATO映像セリア・ホデント形態素解析frame.ioUXAWS LambdaFoodly誤字検出森山和道認知科学中川友紀子ゲームデザインSentencePieceアールティLUMINOUS ENGINELuminous ProductionsBlenderBot 3パターン・ランゲージ竹村也哉Meta AIちょまどマーク・ザッカーバーグGOAPWACULAdobe MAX 2021自動翻訳模倣学習AIライティングOmniverse AvatarAIのべりすとFPSNVIDIA RivaQuillBotマルコフ決定過程NVIDIA MegatronCopysmithNVIDIA MerlinJasperスタンフォード大学NVIDIA Metropolisパラメータ設計テニスバランス調整協調フィルタリング人狼知能テキサス大学AlphaDogfight TrialsAI Messenger VoicebotエージェントシミュレーションOpenAI CodexStarCraft IIHyperStyleMax CooperFuture of Life InstituteRendering with StyleメディアアートIntelDisney類家利直LAIKADisneyリサーチヴィトゲンシュタインRotomationGauGAN論理哲学論考GauGAN2京都芸術大学ドラゴンクエストライバルズ画像言語表現モデル不確定ゲームSIGGRAPH ASIA 2021PromptBaseDota 2モンテカルロ木探索ディズニーリサーチMitsuba2バンダイナムコネクサスソーシャルゲームEmbeddingワイツマン科学研究所ユーザーレビューGTC2020CG衣装mimicNVIDIA MAXINEVRファッションBaidu淡路滋ビデオ会議ArtflowERNIE-ViLGグリムノーツEponym古文書ゴティエ・ボエダ音声クローニング凸版印刷Gautier Boeda階層的クラスタリングGopherAI-OCR画像判定JuliusSIE鑑定ラベル付けTPRGOxia Palus大澤博隆バーチャル・ヒューマン・エージェントtoio SDK for UnityArt RecognitionSFプロトタイピングクーガー田中章愛実況パワフルサッカー石井敦銭起揚NHC 2021桃太郎電鉄茂谷保伯池田利夫桃鉄GDMC新刊案内パワサカマーベル・シネマティック・ユニバースコナミデジタルエンタテインメント成沢理恵MITメディアラボMCU岩倉宏介アベンジャーズPPOマジック・リープDigital DomainMachine Learning Project CanvasMagendaMasquerade2.0国立情報学研究所ノンファンジブルトークンDDSPフェイシャルキャプチャー石川冬樹サッカーモリカトロン開発者インタビュースパコン里井大輝Kaggle宮本茂則スーパーコンピュータバスケットボール山田暉松岡 聡Assassin’s Creed OriginsAI会話ジェネレーターTSUBAME 1.0Sea of ThievesTSUBAME 2.0GEMS COMPANYmonoAI technologyLSTMABCIモリカトロンAIソリューション富岳初音ミクOculusコード生成AISociety 5.0転移学習テストAlphaCode夏の電脳甲子園Baldur's Gate 3Codeforces座談会Candy Crush Saga自己増強型AItext-to-imageSIGGRAPH ASIA 2020COLMAPtext-to-3DADOPNVIDIA GET3DデバッギングBigGANGANverse3DDreamFusionMaterialGANRNNグランツーリスモSPORTAI絵師ReBeLグランツーリスモ・ソフィーUGCGTソフィーPGCVolvoFIAグランツーリスモチャンピオンシップStability AINovelAIRival PrakDGX A100NovelAI DiffusionVTuberユービーアイソフトWebcam VTuberモーションデータ星新一賞北尾まどかHALO市場分析ポーズ推定将棋メタルギアソリッドVフォートナイトメッシュ生成FSMメルセデス・ベンツRobloxMagic Leapナップサック問題Live NationEpyllion汎用言語モデルWeb3.0マシュー・ボールAIOpsムーアの法則SpotifyスマートコントラクトReplica StudioAWSamuseChitrakarQosmoAdobe MAX 2022巡回セールスマン問題Adobe MAXジョルダン曲線メディアAdobe ResearchMuZero政治Galacticaクラウドゲーミングがんばれ森川君2号pixiv和田洋一リアリティ番組映像解析Stadiaジョンソン裕子セキュリティMILEsNightCafe東芝デジタルソリューションズインタラクティブ・ストリーミングLuis RuizSATLYS 映像解析AIインタラクティブ・メディアポケモン3DスキャンCodexPFN 3D Scanシーマン人工知能研究所東京工業大学Ludo博報堂Preferred NetworksラップPFN 4D ScanSIGGRAPH 2019ArtEmisZ世代DreamUpAIラッパーシステムDeviantArtARWaifu DiffusionGROVERプラスリンクス ~キミと繋がる想い~元素法典FAIRSTCNovel AIチート検出Style Transfer ConversationOpen AIオンラインカジノRCPMicrosoft DesignerアップルRealFlowRinna Character PlatformイラストiPhoneCALADeep FluidsSoul Machines柿沼太一MeInGameAmeliaELSIAIGraphブレイン・コンピュータ・インタフェースバーチャルキャラクター大規模言語モデルBCIGateboxアフォーダンスLearning from VideoANIMAKPaLM-SayCan予期知能逢妻ヒカリPaLMセコムGitHub Copilotユクスキュルバーチャル警備システムCode as Policiesカント損保ジャパンCaP上原利之ドラゴンクエストエージェントアーキテクチャアッパーグラウンドPAIROCTOPATH TRAVELER西木康智OCTOPATH TRAVELER 大陸の覇者アルスエレクトロニカ2019品質保証StyleRigAutodesk逆転オセロニアBentley Systemsワールドシミュレーター奥村エルネスト純いただきストリートH100齋藤精一大森田不可止COBOL高橋智隆DGX H100ロボユニザナックDGX SuperPOD泉幸典仁井谷正充クラウドコンピューティングロボコレ2019Instant NeRFartonomousbitGANsぎゅわんぶらあ自己中心派Azure Machine Learning意思決定モデル脱出ゲームHybrid Reward Architectureコミュニティ管理ウロチョロスSuper PhoenixSNSProject Malmoオンラインゲーム気候変動Project PaidiaProject Lookoutマックス・プランク気象研究所Watch Forビョルン・スティーブンスBing気象モデルLEFT ALIVE気象シミュレーション長谷川誠ジミ・ヘンドリックス環境問題Baby Xカート・コバーンエコロジーロバート・ダウニー・Jr.エイミー・ワインハウスSDGsYouTubeダフト・パンクメモリスタGlenn MarshallThe Age of A.I.Story2Hallucination音声変換レコメンデーションJukebox松尾豊Veap JapanEAPテンセントSIFT福井千春DCGAN医療MOBADANNCEメンタルケア人事ハーバード大学Edgar Handy研修デューク大学Netflixmynet.aiローグライクゲーム東京大学東京理科大学人工音声NeurIPS 2021産業技術総合研究所リザバーコンピューティングプレイ動画ヒップホップソニーマーケティングサイレント映画もじぱNBA環境音暗号通貨現代アートFUZZLEAlteration粒子群最適化法進化差分法オープンワールド群知能下川大樹AIFAウィル・ライト高津芳希P2E大石真史BEiTStyleGAN-NADAレベルデザインDETRゲームエンジンSporeUnreal Engineデノイズ南カリフォルニア大学Unity for Industry画像処理SentropyGLIDECPUDiscordAvatarCLIPSynthetic DataCALMプログラミングサム・アルトマンソースコード生成LaMDAGMAIシチズンデベロッパーSonanticTRPGGitHubCohereウィザードリィMCN-AI連携モデルマジック:ザ・ギャザリングAI DungeonUrzas.ai介護西川善司並木幸介Kikiサムライスピリッツ森寅嘉Zoetic AIゼビウスSIGGRAPH 2021ペットストリートファイター半導体Digital Dream LabsTopaz Video Enhance AICozmoDLSSタカラトミー山野辺一記NetEaseLOVOT大里飛鳥DynamixyzMOFLINRomiU-Netミクシィ13フェイズ構造アドベンチャーゲームユニロボットADVユニボXLandGatoAGI手塚眞DEATH STRANDINGマルチモーダルEric Johnson汎用強化学習AIデザインOculus Questコジマプロダクションロンドン芸術大学生体情報デシマエンジンGoogle BrainインディーゲームSound Control写真高橋ミレイSYNTH SUPER照明Maxim PeterKarl SimsJoshua RomoffArtnomeハイパースケープICONATE山崎陽斗深層強化学習立木創太松原仁浜中雅俊ミライ小町武田英明テスラ福井健策GameGANパックマンTesla BotNEDOTesla AI DayWikipediaソサエティ5.0SphereSIGGRAPH 2020バズグラフXaver 1000ニュースタンテキ養蜂東芝BeewiseDIB-R倉田宜典フィンテック投資韻律射影MILIZE広告韻律転移三菱UFJ信託銀行

【CEDEC2022】AIでモーションスタイル変換〜バンダイナムコ研究所の取り組み〜

2022.10.26ゲーム

【CEDEC2022】AIでモーションスタイル変換〜バンダイナムコ研究所の取り組み〜

バーチャルなキャラクターの活用の場はゲームやアニメのみに留まらず、いまや動画配信やバーチャル空間のアバターなど、キャラクタービジネスの可能性は多方面へと広がっています。一方で、キャラクターの作り込みには経験やスキルが必要です。バンダイナムコ研究所では、AIを使った人型キャラクターのモーションデータの利活用について研究開発が進められています。CEDEC2022のセッション「モーションキャプチャデータを題材にしたAI研究プロジェクトのポストモーテム – データセット構築からモーションスタイル変換プロジェクトまで」ではバンダイナムコ研究所の髙橋誠史氏、森本直彦氏、株式会社ACESの小林真輝人氏が登壇し、この取り組みを紹介しました。

モーションデータ×AIの潜在ニーズ

バンダイナムコグループのR&Dを担うバンダイナムコ研究所は、ゲーム制作へのAI技術の応用というところで、これまでテキスト(シナリオ、セリフ)、音声(ボイス、効果音、BGM)を対象とした研究を行っています。次の研究開発の対象として着目したのがモーションデータです。とはいえ、ゲームにおけるモーションデータの制作シーンを考えたときにどのような課題があるでしょうか。AIを使うことで何ができるか、どう貢献できるのかを検討するところから始めました。

モーションデータはキャラクターの表現にとって非常に重要な要素です。主役級のキャラクターであれば、モーションアクターをキャスティングして何時間も収録するなどコストをかけて作っていきます。ただし、すべてのキャラクターにそうできるわけではありません。モブ的なキャラクターが大勢、それも老若男女が出てくるとき、そのすべてを収録でカバーすることはまずできません。もし、AIの導入でモーションデータの変換が容易にできれば、ゲームとしての表現が格段に上がるでしょう。

もちろんゲームだけではなく、メタバースの中のアバターにも活用できます。ビジュアルで個性を表現できるようになっていても、動き(モーション)まではカスタマイズが難しいというのが現状です。ちょっとした仕草や動き、そこにも個性を出したいと思う人は多いはずです。あるいは、演者の属性と異なるアバターを演じたいという場合、たとえば男性が美少女のアバターを使って配信するとき、リアルな素の動作を可愛いらしくしたいと思うことがあるでしょう。このように、キャラクターの個性を表現する用途において大きなニーズがあると考えられます。

また、たとえば踊りやパフォーマンスがテーマのゲームなどで、キャラクターが徐々に上手になる過程を描きたいとき、最初は下手に見せたいということがあるでしょう。ボイスチェンジャーのようにモーションの変換ができれば、このようなニーズにも応えることができます。

ニーズがありそうだということで、モーションデータを扱う先行研究を「キャラクターコントロールに関するもの」「モーションをスタイル変換するもの」「自然言語処理によるモーション生成」に分けて調べていきました。

まず、キャラクターコントロールに関する関連研究として、「AI4Animation: Deep Learning for Character Control」が挙げられます。SIGGRAPH 2017で発表された「Phase-Functioned Neural Networks for Character Control(PFNN)」からスタートした一連の研究群です。モーションを学習したモデルからキャラクターのスケルトンアニメーションの制御を行うというもので、ゲームのキャラクター制御にディープラーニングを取り入れたエポックメイキングな研究として知られています。

AI4Animation: Deep Learning for Character Control

他にも、GDC 2022のAnimation SummitでElectronic Artsが発表した「’FIFA 22’s’ Hypermotion: Full-Match Mocap Driving Machine Learning Technology」があります。サッカーゲームの選手キャラクターのモーションを機械学習で生成しようという研究で、収録したデータを学習して、ボールに対する選手のインタラクションなどのモーション選定を機械学習で推論するというものです。サッカースタジアムで、実際のゲームの形式でデータを収集するという大規模なプロジェクトです。

‘FIFA 22’s’ Hypermotion: Full-Match Mocap Driving Machine Learning Technology

次に、モーションをスタイル変換するというカテゴリーです。これは、「歩く」「走る」というモーションに対し、後から「おじいさんの動き」「小さな子どもの動き」というような演技スタイルを加えることで、異なる演技スタイルに変えるというジャンルです。これに関して注目しているものとして2つの研究を取り上げました。

1つが「Unpaired Motion Style Transfer from Video to Animation」です。SIGGRAPH 2020で発表されたもので、現在のAIによるモーションスタイル変換のベースになってる研究です。もう1つが「Motion Puzzle: Arbitrary Motion Style Transfer by Body Part」で、これはUnpaired Motion Style Transferを手や足など部位ごとに適応させるという後続の研究です。2022年の3月に論文が出て、SIGGRAPH 2022で発表されました。

Unpaired Motion Style Transfer from Video to Animation, SIGGRAPH 2020,Motion Puzzle: Arbitrary Motion Style Transfer by Body Part, SIGGRAPH 2022

そして、自然言語処理によるモーション生成の先行研究として、「MotionCLIP: Exposing Human Motion Generation to CLIP Space」、「AvatarCLIP: Zero-Shot Text-Driven Generation and Animation of 3D Avatars」が紹介されました。巷でもDALL・EやMidjourneyのように、文章を入れたら絵が生成されるAIモデルが流行っていますが、それと同じように、文章をもとにアクションやモーションを生成する研究です。

MotionCLIPはテキストとモーション生成の関係性についての研究で、一方、AvatarCLIPは動作だけでなく、人型のキャラクターに貼り付けるテクスチャー、体型なども文章から生成するというものです。

この分野は今回の取り組みよりも少し先の未来の話だとしながらも、もちろん研究としては視野に入れていると言います。髙橋誠史氏(以下、髙橋氏)は「文章を入れたらいい感じのモーションが生成される」というモデルの実用化まで、あと2、3年というところではないかと言います。

MotionCLIP: Exposing Human Motion Generation to CLIP Space, ECCV 2022,AvatarCLIP: Zero-Shot Text-Driven Generation and Animation of 3D Avatars, SIGGRAPH 2022

こうした先行研究をサーベイしながら、多数のキャラクター、個性的なメタバースアバターへの長期的な活用につながるということで、モーションスタイル変換の研究を進めていくことになります。実際のゲームに組み込むというより、まずは「データを入れてデータが出てくる」という部分で考えていきました。

今回のプロジェクトの座組みに当たって、「CG」「モーションアニメーション」「AI」の3つの領域の専門家が必要です。内部リソースの稼働の問題もあり、株式会社ACEに協力を依頼するという体制でスタートしました。

モーションスタイル変換とは

では、モーションスタイル変換で何ができるようになるのでしょうか。モーションスタイル変換の技術についてはACEの小林真輝人氏(以下、小林氏)から解説がありました。ACEは2017年創業の東京大学松尾研発のAIスタートアップで、以前からカメラ映像を使った運動認識のAI開発に取り組んでいます。

小林氏は、まず「モーションスタイルの変換(Motion Style Transfer)」というタスクについて、もともとは画像のスタイルトランスファー(Style Transfer)のモーション版にしたものだと言います。つまり、もともとのモーションのコンテンツの情報を維持したままスタイルの情報を変換した新しいモーションを生成するタスクということになります。

モーションスタイル変換のタスク

画像の場合、たとえば船の画像であれば「船が写っている」というところがコンテンツに当たります。それに対しスタイルは画風のようなもので、スタイルトランスファーというタスクのアウトプットは「コンテンツとスタイルを掛け合わせたトランスファーの結果」です。

モーションの場合は、たとえば歩いているというような「何をしているか」という情報がコンテンツで、スタイルは「どのように歩いているか」という情報になり、アウトプットは「そのスタイルを反映させて歩いているというモーション」になります。より具体的には、属性(年齢や性別など)や性格によるキャラクターの”らしさ”やキャラクターの感情、状態(「元気だ」とか「疲れている」とか)というような情報が具体的なモーションにおけるスタイルに該当します。

今回、いくつかあるモーションスタイル変換に関する関連研究の中から、Abermanの2020年の論文をベースとして進めることにしました。小林氏は、2020年時点での比較とした上で、Abermanの論文の優れている点として、ペアではない学習データでも学習が可能であるという点、また学習データセットにふくまれていない未学習のスタイルに変換できる点、動画からそのままスタイルが抽出できるといった点を挙げています。それらの利点が、この「キャラクターのモーションの作成」という目的に適切であると考えたのです。

モーションスタイル変換の関連研究(2020年)

2022年の現在、モーションスタイル変換はさらに研究が進んでおり、前述のMotion Puzzleのように部位ごとにスタイルが反映できたり、関節間の空間的な関係を考慮した変換ができるといったようなところも進んでいるといいます。

モーションスタイル変換の関連研究(2022年)

独自の改善点:ボーン構造の変更とROOT位置

Abermanの2020年の論文をベースにはしていますが、独自の改善をかなり行っています。

たとえば、ボーン構造の変更です。理由として、アカデミアの研究開発で使われているボーン構造と一般的なゲーム開発などで用いられるボーン構造が異なるということがあります。図の左がもともとの論文で使われているボーン構造で、右がこのプロジェクト内で収録したデータセットで使っているボーン構造です。

そもそものプロポーションが違っているし、腰と股関節のジョイントの位置関係や複数のジョイントが重なって存在したり、回転の定義の仕方などの相違点が多々あります。このまま現在のゲーム開発で使われているボーンにこの左側のボーンで作られたモーションを適用するのは難しいということで、今回、一般的なゲーム開発で用いられているボーン構造で学習データを用意することになりました。学習データだけではなく、変更したボーン構造で学習できるようモデル側の修正も必要でした。

独自の改善事例 − ボーン構造の変更

また、アルゴリズムの調整も行っています。もともとの論文では、腰を基準にジョイントの位置情報を取得してモーションスタイルの変換を行います。このとき、腰の位置は入力時のROOTの位置をそのまま適用しています。しかし、そうすると腰の動きに関してスタイルの反映ができないということになります。そこで、位置の基準となるジョイントをコンテンツの動作を元に選定するというアプローチを採りました。

独自の改善事例 − ROOTの移動

モーションスタイルの変換例

実際に変換した結果は、というと、次の図は「歩き」というコンテンツを男性から女性のスタイルに変換したものです。このように、各スタイルが反映され、かつ、歩いているというコンテンツが維持されたモーションが出力できます。

「歩き」の変換(1)

さらに、「元気」「疲労」「子供」「老人」というスタイルに関しても、コンテンツを維持してスタイルを反映したなめらかなモーションが生成できます。

「歩き」の変換(2)

また、「走り」という動作に関してもコンテンツを維持してスタイルを反映した、なめらかなモーションが生成できています。「走り」は「歩き」に比べるとモーションが激しいため、難易度的には少し上がります。

「走り」の変換(1)
「走り」の変換(2)

3Dアニメーターがプロジェクトにいる意味

でき上がったモーションや研究開発の過程におけるモーションデータに関するディレクションを監修していたのが、株式会社バンダイナムコ研究所の森本直彦氏(以下、森本氏)です。

森本氏は、バンダイナムコスタジオで長く3Dアニメーターとしてゲーム制作に携わり、現在バンダイナムコ研究所にてアニメーションに関わるR&Dを行っています。まず、今回のプロジェクトにおいて、アニメーションの専門家として3つの役割があったと振り返ります。

  • データセット構築のためのモーションキャプチャーに関するすべて:モーションキャプチャーは特殊な分野のため、スケジューリングやキャスティング、収録の進め方など、すべてを担当
  • プロジェクト全体を通じて、アウトプットされた結果そのものの品質をある程度見極める:現状のAI研究はそれぞれ非常に興味深い成果を出しているが、実際に商品にしようとしたときに求められる完成度とは別。ときに非常に厳しい意見をフィードバックとして出すことも多々あった
  • 専門家としての視点からの気付きやアドバイス:「動き」という点だけに着目してきた長年のアニメーターとしての経験からの知見や気付きをフィードバックする

森本氏は、特にデータセットへの落とし込み(モーションの収録)という点で、今回のプロジェクトで痛感したのは圧倒的なデータ量が必要となるというところだったと言います。手探りで進めていたこともあるとはいえ、たとえば1つのモーション(「歩き」や「走り」など)に対し、スタイルを掛け算していくとすぐに100モーションというような数字になってしまいます。1モーションが5分だとすると100モーションで500分、まともに収録すると収録日数もふくめたモーションキャプチャの費用だけで何千万円という途方もない金額になります。とても研究予算の中に収まりません。

そのため、AIのエンジニアと相談しながら、本当に必要な内容を残しつつ、全体の収録量を現実的なラインに落とし込んでいったそうです。データセットについては次項でも触れますが、データセットを設計する際の気づきとして指摘したのが「モーション(動作そのもの)とアニメーションを意識的に分けて考える」ことです。

たとえば「手を挙げる」動作はモーションです。それに対して、その動作に目的をふくめて表現したものがアニメーションだという考え方です。人間が「手を挙げる」のは遠くにいる人への挨拶であったり、あるいは意見があることを示したい場合だったり、その動作には目的があるわけです。

アニメーターにとっては動作そのものよりもその目的のほうが重要で、動作は目的に付随したものという位置づけです。そういった目的のほうに着目して動きをイメージしたり表現したりということを無意識にしがちなのですが、一方で、AIは学習する際にその動きの意味や目的は認識していません。AIはあくまで動作そのものしか見ないので、AIに学習させる内容を検討する際には人間の側も意識的に動作のほうに着目して考えるようにしなければ、なかなかAIに学習させやすいデータセットは作れないのではないかと言います。

これは非常に興味深い観点で、目的が異なっても同じ「動作」にカテゴライズできるものはあるわけで、そういった整理を事前にしっかりしておくことでノイズの少ない、学習しやすいデータセットを作ることができるのではないかということです。

また、演者(モーションアクター)の難易度が非常に高いというところも留意点として挙げています。ゲームのモーション収録では、せいぜい数百秒の収録です。しかし前述のように、AIが学習するためのデータセットに必要な収録は数時間、場合によっては数十時間かかります。アクターにとっては体力勝負になります。

さらに、ただ動けばいいわけではなくて、スタイルを学習させるためのデータなので、常にスタイルの違いなどを反映した質の高い動きを保ってもらう必要があります。実際、今回のプロジェクトではアクターとして非常に高いスキルを持つ演者に依頼したそうです。ちなみに、収録はバンダイナムコスタジオのモーションキャプチャスタジオで行っています(Viconの光学式モーションキャプチャシステムで収録)。

データセットの設計について

データセットの設計に関する先行研究として参考にしたものとして「Ubisoft La Forge Animation Dataset(”LAFAN1″)」や「100STYLE dataset, I3D 2022」があります。

データセットの設計に関する先行研究

データセットの概要としては、次の図のとおりです。コンテンツやスタイルの種類が豊富なMotiondataset-1と1種類のモーションの収録量が多いMotiondataset-2があります。大きな違いは、Motiondataset-2のほうが1種類あたりのフレーム数が圧倒的に多いという点です。Motiondataset-1とMotiondataset-2があるのは収録を2回行っているからです。要は、Motiondataset-1を使った実験の結果に基づいて、AIがより学習しやすいようにMotiondataset-2を収録した、ということになります。

たとえば「歩く」×「悲しい」と「歩く」×「楽しい」で生成した結果どちらも同じようになってしまう、そうした点を反映するために、同一スタイルの中の表現のばらつきを解消する、1種類あたりのデータ量を多くするなどして収録を行いました。

また、変換に使っているモデルのアルゴリズムの部分も改良し、学習難易度を下げるために似たようなコンテンツでカテゴライズし、モデルを使い分けるという形にしています。その結果、アウトプットの質も大きく改善したと言います。

データセットの概要
Motiondataset-1にあった課題

モーションデータのデータセットを設計する上で、今後の課題として高橋氏が指摘するのは、データのラベリングやアノテーションの仕方といった部分です。今回のデータセットに関しては「歩く」「走る」というようなアクションそのもののコンテキストと、男性女性老人若者というようなスタイルをファイル名に入れるという命名規則で十分でしたが、より複雑な処理をしようとした場合、ラベリングやアノテーションの仕方が課題になってくると考えています。

バンダイナムコ研究所では、今回のプロジェクトで使用したデータセットを公開しています。 モーション変換アルゴリズムだけでなく、こうしたさまざまな先行研究を利用する中で、自分たちも何か業界やアカデミアに返せるものがないかということで、今回、データセットの公開を行ったそうです。

データセットの公開

今回のプロジェクトはデータセットを公開したところが終了ではなく、この後、これを活用していくというところが自分たちの技術開発において礎になると考えています。今、文章から絵を自動生成するAIモデルが世の中を席巻していますが、これはモーションの世界でも起こるでしょう。そうしたとき、ツールの形で利用するのか、自分たちでモーションデータを収録して研究開発するのか、2つの選択肢があるが、どちらにしてもアンテナを張っておくという意味でこうした研究開発の意味は大きいと高橋氏は言います。

今後も、こうしたチャレンジを続けて、データセットの更新や論文化を進めていく予定です。

Writer:大内孝子

RELATED ARTICLE関連記事

【JSAI2021】JRPG特有のお遣いクエストを自動生成できるAI技術への第一歩

2021.6.21ゲーム

【JSAI2021】JRPG特有のお遣いクエストを自動生成できるAI技術への第一...

「今日のメシどうする?」問題から学ぶ、階層型タスクネットワーク

2019.12.20ゲーム

「今日のメシどうする?」問題から学ぶ、階層型タスクネットワーク

【CEDEC2021】ディープラーニングとルールベースによるヒロインの「冴える」セリフ生成

2021.9.22ゲーム

【CEDEC2021】ディープラーニングとルールベースによるヒロインの「冴える」...

RANKING注目の記事はこちら