モリカトロン株式会社運営「エンターテインメント×AI」の最新情報をお届けするサイトです。
- TAG LIST
- CGCGへの扉機械学習安藤幸央ディープラーニング月刊エンタメAIニュースGAN河合律子OpenAI音楽ニューラルネットワークNVIDIA三宅陽一郎強化学習吉本幸記QAGoogleFacebook人工知能学会GPT-3自然言語処理グーグルDeepMind大内孝子森川幸人敵対的生成ネットワークキャラクターAIスクウェア・エニックスモリカトロンAIラボインタビューマイクロソフトルールベースシナリオAIと倫理映画デバッグアートDALL-E2StyleGAN倫理ゲームプレイAINFT自動生成SIGGRAPHメタAIStable Diffusionテキスト画像生成ロボット深層学習CEDEC2019プロシージャル遺伝的アルゴリズムテストプレイモリカトロンDALL-Eビヘイビア・ツリーディープフェイクCEDEC2021CEDEC2020ゲームAIVFXデジタルツインメタバース不完全情報ゲームVRナビゲーションAI画像生成AINPC畳み込みニューラルネットワークCLIP画像生成GDC 2021JSAI2022GDC 2019マルチエージェントCEDEC2022AIアートボードゲームファッション懐ゲーから辿るゲームAI技術史toioCNNAdobeUnity著作権小説アニメーション鴫原盛之HTN階層型タスクネットワーク汎用人工知能JSAI2020TensorFlowインタビューBERTMicrosoftイベントレポート対話型エージェントロボティクスMetaMinecraft水野勇太Genvid TechnologiesガイスターStyleGAN2GTC2022教育ソニーJSAI2021スポーツ研究シムピープルMCS-AI動的連携モデルマンガマーケティングGDC SummerバーチャルヒューマンブロックチェーンMidjourneyアストロノーカキャリアNVIDIA OmniverseeスポーツAmazoneSportsDQNBLUE PROTOCOLシーマンアバターOmniverse3DCGUbisoftメタAlphaZeroTransformerGPT-2AIりんなカメラ環世界中島秀之哲学ベリサーブPlayable!ChatGPT理化学研究所ジェネレーティブAISIGGRAPH ASIADARPAドローンシムシティImagenZorkバイアスモーションキャプチャーTEZUKA2020AI美空ひばり手塚治虫バンダイナムコ研究所スパーシャルAIElectronic Arts3DメタデータLEFT 4 DEAD通しプレイOpenAI Five本間翔太CMピクサープラチナエッグイーサリアム作曲ボエダ・ゴティエビッグデータ中嶋謙互Amadeus Codeデータ分析Microsoft AzureMILE模倣学習ナラティブスタンフォード大学アーケードゲームOmniverse ReplicatorWCCFレコメンドシステムNVIDIA DRIVE SimWORLD CLUB Champion FootballNVIDIA Isaac Simセガ柏田知大軍事サイバーエージェント田邊雅彦トレーディングカードトレカ音声認識メディアアートPyTorch眞鍋和子バンダイナムコスタジオaibo合成音声齊藤陽介マインクラフトお知らせMagic Leap Oneチャットボットサルでもわかる人工知能VAEDreamFusionリップシンキングUbisoft La Forge自動運転車ワークショップ知識表現ウォッチドッグス レギオンIGDA秋期GTC2022どうぶつしょうぎEpic Gamesジェイ・コウガミ音楽ストリーミングMITAIロボ「迷キュー」に挑戦野々下裕子徳井直生マシンラーニング5GMuZeroRival Peakクラウド対話エンジン斎藤由多加リトル・コンピュータ・ピープルCodexコンピューティショナル・フォトグラフィーゴブレット・ゴブラーズ絵画rinnaイラストシミュレーションデジタルヒューマン完全情報ゲーム坂本洋典PaLM釜屋憲彦ウェイポイントパス検索対談藤澤仁生物学GTC 2022画像認識GPT-3.5SiemensStyleCLIPDeNA長谷洋平masumi toyota宮路洋一OpenSeaGDC 2022TextWorldEarth-2BingMagentaSFELYZA Pencil松尾豊GTC2021CycleGANデータマイニング東京大学NetHackはこだて未来大学キャラクターモーションフェイクニュースエージェントRPGSIGGRAPH 2022レベルデザインAIボイスアクターNVIDIA CanvasGPUALife人工生命オルタナティヴ・マシンサウンドスケープLaMDAAI DungeonASBS栗原聡ぱいどんテキスト生成不気味の谷ナビゲーションメッシュ松井俊浩ELYZAフルコトELYZA DIGEST音声合成西成活裕Apex LegendsELIZA群衆マネジメントNinjaコンピュータRPGライブビジネスアップルタウン物語新型コロナKELDIC周済涛メロディ言語清田陽司ゲームTENTUPLAYサイバネティックスMARVEL Future FightAstro人工知能史タイムラプスEgo4DAI哲学マップバスキア星新一日経イノベーション・ラボStyleGAN-XL敵対的強化学習StyleGAN3階層型強化学習GOSU Data LabGANimatorWANNGOSU Voice AssistantVoLux-GAN竹内将SenpAI.GGProjected GANMobalyticsSelf-Distilled StyleGAN馬淵浩希Cygamesニューラルレンダリング岡島学AWS SagemakerPLATO映像セリア・ホデント形態素解析frame.ioUXAWS LambdaFoodly誤字検出森山和道認知科学中川友紀子ゲームデザインSentencePieceアールティLUMINOUS ENGINELuminous ProductionsBlenderBot 3パターン・ランゲージ竹村也哉Meta AIちょまどマーク・ザッカーバーグGOAPWACULAdobe MAX 2021自動翻訳AIライティングOmniverse AvatarAIのべりすとFPSNVIDIA RivaQuillBotマルコフ決定過程NVIDIA MegatronCopysmithNVIDIA MerlinJasperNVIDIA Metropolisパラメータ設計テニスバランス調整協調フィルタリング人狼知能テキサス大学AlphaDogfight TrialsAI Messenger VoicebotエージェントシミュレーションOpenAI CodexStarCraft IIHyperStyleMax CooperFuture of Life InstituteRendering with StyleIntelDisney類家利直LAIKADisneyリサーチヴィトゲンシュタインRotomationGauGAN論理哲学論考GauGAN2京都芸術大学ドラゴンクエストライバルズ画像言語表現モデル不確定ゲームSIGGRAPH ASIA 2021PromptBaseDota 2モンテカルロ木探索ディズニーリサーチMitsuba2バンダイナムコネクサスソーシャルゲームEmbeddingワイツマン科学研究所ユーザーレビューGTC2020CG衣装mimicNVIDIA MAXINEVRファッションBaidu淡路滋ビデオ会議ArtflowERNIE-ViLGグリムノーツEponym古文書ゴティエ・ボエダ音声クローニング凸版印刷Gautier Boeda階層的クラスタリングGopherAI-OCR画像判定JuliusSIE鑑定ラベル付けTPRGOxia Palus大澤博隆バーチャル・ヒューマン・エージェントtoio SDK for UnityArt RecognitionSFプロトタイピングクーガー田中章愛実況パワフルサッカー石井敦銭起揚NHC 2021桃太郎電鉄茂谷保伯池田利夫桃鉄GDMC新刊案内パワサカマーベル・シネマティック・ユニバースコナミデジタルエンタテインメント成沢理恵MITメディアラボMCU岩倉宏介アベンジャーズPPOマジック・リープDigital DomainMachine Learning Project CanvasMagendaMasquerade2.0国立情報学研究所ノンファンジブルトークンDDSPフェイシャルキャプチャー石川冬樹サッカーモリカトロン開発者インタビュースパコン里井大輝Kaggle宮本茂則スーパーコンピュータバスケットボール山田暉松岡 聡Assassin’s Creed OriginsAI会話ジェネレーターTSUBAME 1.0Sea of ThievesTSUBAME 2.0GEMS COMPANYmonoAI technologyLSTMABCIモリカトロンAIソリューション富岳初音ミクOculusコード生成AISociety 5.0転移学習テストAlphaCode夏の電脳甲子園Baldur's Gate 3Codeforces座談会Candy Crush Saga自己増強型AItext-to-imageSIGGRAPH ASIA 2020COLMAPtext-to-3DADOPNVIDIA GET3DデバッギングBigGANGANverse3DMaterialGANRNNグランツーリスモSPORTAI絵師ReBeLグランツーリスモ・ソフィーUGCGTソフィーPGCVolvoFIAグランツーリスモチャンピオンシップStability AINovelAIRival PrakDGX A100NovelAI DiffusionVTuberユービーアイソフトWebcam VTuberモーションデータ星新一賞北尾まどかHALO市場分析ポーズ推定将棋メタルギアソリッドVフォートナイトメッシュ生成FSMメルセデス・ベンツRobloxMagic Leapナップサック問題Live NationEpyllion汎用言語モデルWeb3.0マシュー・ボールAIOpsムーアの法則SpotifyスマートコントラクトReplica StudioAWSamuseChitrakarQosmoAdobe MAX 2022巡回セールスマン問題Adobe MAXジョルダン曲線メディアAdobe Research政治Galacticaクラウドゲーミングがんばれ森川君2号pixiv和田洋一リアリティ番組映像解析Stadiaジョンソン裕子セキュリティMILEsNightCafe東芝デジタルソリューションズインタラクティブ・ストリーミングLuis RuizSATLYS 映像解析AIインタラクティブ・メディアポケモン3DスキャンPFN 3D Scanシーマン人工知能研究所東京工業大学Ludo博報堂Preferred NetworksラップPFN 4D ScanSIGGRAPH 2019ArtEmisZ世代DreamUpAIラッパーシステムDeviantArtARWaifu DiffusionGROVERプラスリンクス ~キミと繋がる想い~元素法典FAIRSTCNovel AIチート検出Style Transfer ConversationOpen AIオンラインカジノRCPMicrosoft DesignerアップルRealFlowRinna Character PlatformiPhoneCALADeep FluidsSoul Machines柿沼太一MeInGameAmeliaELSIAIGraphブレイン・コンピュータ・インタフェースバーチャルキャラクター大規模言語モデルBCIGateboxアフォーダンスLearning from VideoANIMAKPaLM-SayCan予期知能逢妻ヒカリセコムGitHub Copilotユクスキュルバーチャル警備システムCode as Policiesカント損保ジャパンCaP上原利之ドラゴンクエストエージェントアーキテクチャアッパーグラウンドコリジョンチェックPAIROCTOPATH TRAVELER西木康智OCTOPATH TRAVELER 大陸の覇者山口情報芸術センター[YCAM]アルスエレクトロニカ2019品質保証YCAMStyleRigAutodeskアンラーニング・ランゲージ逆転オセロニアBentley Systemsカイル・マクドナルドワールドシミュレーターローレン・リー・マッカーシー奥村エルネスト純いただきストリートH100鎖国[Walled Garden]プロジェクト齋藤精一大森田不可止COBOLSIGGRAPH ASIA 2022高橋智隆DGX H100VToonifyロボユニザナックDGX SuperPODControlVAE泉幸典仁井谷正充クラウドコンピューティング変分オートエンコーダーロボコレ2019Instant NeRFフォトグラメトリartonomous回帰型ニューラルネットワークbitGANsDeepJoinぎゅわんぶらあ自己中心派Azure Machine LearningAzure OpenAI Service意思決定モデル脱出ゲームDeepLHybrid Reward Architectureコミュニティ管理DeepL WriteウロチョロスSuper PhoenixSNSProject MalmoオンラインゲームGen-1気候変動Project PaidiaシンギュラリティProject Lookoutマックス・プランク気象研究所レイ・カーツワイルWatch Forビョルン・スティーブンスヴァーナー・ヴィンジ気象モデルRunway ResearchLEFT ALIVE気象シミュレーションMake-A-Video長谷川誠ジミ・ヘンドリックス環境問題PhenakiBaby Xカート・コバーンエコロジーDreamixロバート・ダウニー・Jr.エイミー・ワインハウスSDGsText-to-Imageモデル音楽生成AIYouTubeダフト・パンクメモリスタ音声生成AIGlenn MarshallScenarioThe Age of A.I.Story2Hallucination音声変換LatitudeレコメンデーションJukeboxAIピカソVeap JapanAI素材.comEAPneoAIテンセントSIFT福井千春DreamIconDCGAN医療mignMOBADANNCEメンタルケアstudiffuse人事ハーバード大学Edgar HandyAndreessen Horowitz研修デューク大学NetflixAIQVE ONEQA Tech Nightmynet.aiローグライクゲーム松木晋祐東京理科大学下田純也人工音声NeurIPS 2021産業技術総合研究所桑野範久リザバーコンピューティングBardプレイ動画ヒップホップ対話型AIモデル詩ソニーマーケティングControlNetサイレント映画もじぱnoteNBA環境音暗号通貨note AIアシスタント現代アートFUZZLEKetchupAlterationAI News粒子群最適化法Art Selfie進化差分法オープンワールドArt Transfer群知能下川大樹AIFAPet Portraitsウィル・ライト高津芳希P2EBlob Opera大石真史クリムトBEiTStyleGAN-NADA世界モデルDETRゲームエンジンDreamerV3SporeUnreal Engineクリティックネットワークデノイズ南カリフォルニア大学Unity for Industryアクターネットワーク画像処理DMLabSentropyGLIDEControl SuiteCPUDiscordAvatarCLIPAtari 100kSynthetic DataAtari 200MCALMYann LeCunプログラミングサム・アルトマン鈴木雅大ソースコード生成コンセプトアートGMAIシチズンデベロッパーSonanticColie WertzTRPGGitHubCohereリドリー・スコットウィザードリィMCN-AI連携モデルマジック:ザ・ギャザリング絵コンテUrzas.aiストーリーボード介護大阪大学西川善司並木幸介KikiBlenderサムライスピリッツ森寅嘉Zoetic AIプロンプトゼビウスSIGGRAPH 2021ペットGPT-4ストリートファイター半導体Digital Dream LabsPaLM APITopaz Video Enhance AICozmoMakerSuiteDLSSタカラトミーSkeb山野辺一記NetEaseLOVOTDreambooth-Stable-Diffusion大里飛鳥DynamixyzMOFLINゲーム背景RomiGoogle EarthU-NetミクシィGEPPETTO AI13フェイズ構造アドベンチャーゲームユニロボットStable Diffusion web UIADVユニボPoint-EXLandGatoAGI手塚眞DEATH STRANDINGマルチモーダルEric Johnson汎用強化学習AIデザインOculus Questコジマプロダクションロンドン芸術大学生体情報デシマエンジンGoogle BrainインディーゲームSound Control写真高橋ミレイSYNTH SUPER照明Maxim PeterKarl SimsJoshua RomoffArtnomeハイパースケープICONATE山崎陽斗深層強化学習立木創太松原仁浜中雅俊ミライ小町武田英明テスラ福井健策GameGANパックマンTesla BotNEDOTesla AI DayWikipediaソサエティ5.0SphereSIGGRAPH 2020バズグラフXaver 1000ニュースタンテキ養蜂東芝BeewiseDIB-R倉田宜典フィンテック投資韻律射影MILIZE広告韻律転移三菱UFJ信託銀行
【CEDEC2022】AIでモーションスタイル変換〜バンダイナムコ研究所の取り組み〜
バーチャルなキャラクターの活用の場はゲームやアニメのみに留まらず、いまや動画配信やバーチャル空間のアバターなど、キャラクタービジネスの可能性は多方面へと広がっています。一方で、キャラクターの作り込みには経験やスキルが必要です。バンダイナムコ研究所では、AIを使った人型キャラクターのモーションデータの利活用について研究開発が進められています。CEDEC2022のセッション「モーションキャプチャデータを題材にしたAI研究プロジェクトのポストモーテム – データセット構築からモーションスタイル変換プロジェクトまで」ではバンダイナムコ研究所の髙橋誠史氏、森本直彦氏、株式会社ACESの小林真輝人氏が登壇し、この取り組みを紹介しました。
モーションデータ×AIの潜在ニーズ
バンダイナムコグループのR&Dを担うバンダイナムコ研究所は、ゲーム制作へのAI技術の応用というところで、これまでテキスト(シナリオ、セリフ)、音声(ボイス、効果音、BGM)を対象とした研究を行っています。次の研究開発の対象として着目したのがモーションデータです。とはいえ、ゲームにおけるモーションデータの制作シーンを考えたときにどのような課題があるでしょうか。AIを使うことで何ができるか、どう貢献できるのかを検討するところから始めました。
モーションデータはキャラクターの表現にとって非常に重要な要素です。主役級のキャラクターであれば、モーションアクターをキャスティングして何時間も収録するなどコストをかけて作っていきます。ただし、すべてのキャラクターにそうできるわけではありません。モブ的なキャラクターが大勢、それも老若男女が出てくるとき、そのすべてを収録でカバーすることはまずできません。もし、AIの導入でモーションデータの変換が容易にできれば、ゲームとしての表現が格段に上がるでしょう。
もちろんゲームだけではなく、メタバースの中のアバターにも活用できます。ビジュアルで個性を表現できるようになっていても、動き(モーション)まではカスタマイズが難しいというのが現状です。ちょっとした仕草や動き、そこにも個性を出したいと思う人は多いはずです。あるいは、演者の属性と異なるアバターを演じたいという場合、たとえば男性が美少女のアバターを使って配信するとき、リアルな素の動作を可愛いらしくしたいと思うことがあるでしょう。このように、キャラクターの個性を表現する用途において大きなニーズがあると考えられます。
また、たとえば踊りやパフォーマンスがテーマのゲームなどで、キャラクターが徐々に上手になる過程を描きたいとき、最初は下手に見せたいということがあるでしょう。ボイスチェンジャーのようにモーションの変換ができれば、このようなニーズにも応えることができます。
ニーズがありそうだということで、モーションデータを扱う先行研究を「キャラクターコントロールに関するもの」「モーションをスタイル変換するもの」「自然言語処理によるモーション生成」に分けて調べていきました。
まず、キャラクターコントロールに関する関連研究として、「AI4Animation: Deep Learning for Character Control」が挙げられます。SIGGRAPH 2017で発表された「Phase-Functioned Neural Networks for Character Control(PFNN)」からスタートした一連の研究群です。モーションを学習したモデルからキャラクターのスケルトンアニメーションの制御を行うというもので、ゲームのキャラクター制御にディープラーニングを取り入れたエポックメイキングな研究として知られています。

他にも、GDC 2022のAnimation SummitでElectronic Artsが発表した「’FIFA 22’s’ Hypermotion: Full-Match Mocap Driving Machine Learning Technology」があります。サッカーゲームの選手キャラクターのモーションを機械学習で生成しようという研究で、収録したデータを学習して、ボールに対する選手のインタラクションなどのモーション選定を機械学習で推論するというものです。サッカースタジアムで、実際のゲームの形式でデータを収集するという大規模なプロジェクトです。

次に、モーションをスタイル変換するというカテゴリーです。これは、「歩く」「走る」というモーションに対し、後から「おじいさんの動き」「小さな子どもの動き」というような演技スタイルを加えることで、異なる演技スタイルに変えるというジャンルです。これに関して注目しているものとして2つの研究を取り上げました。
1つが「Unpaired Motion Style Transfer from Video to Animation」です。SIGGRAPH 2020で発表されたもので、現在のAIによるモーションスタイル変換のベースになってる研究です。もう1つが「Motion Puzzle: Arbitrary Motion Style Transfer by Body Part」で、これはUnpaired Motion Style Transferを手や足など部位ごとに適応させるという後続の研究です。2022年の3月に論文が出て、SIGGRAPH 2022で発表されました。

そして、自然言語処理によるモーション生成の先行研究として、「MotionCLIP: Exposing Human Motion Generation to CLIP Space」、「AvatarCLIP: Zero-Shot Text-Driven Generation and Animation of 3D Avatars」が紹介されました。巷でもDALL・EやMidjourneyのように、文章を入れたら絵が生成されるAIモデルが流行っていますが、それと同じように、文章をもとにアクションやモーションを生成する研究です。
MotionCLIPはテキストとモーション生成の関係性についての研究で、一方、AvatarCLIPは動作だけでなく、人型のキャラクターに貼り付けるテクスチャー、体型なども文章から生成するというものです。
この分野は今回の取り組みよりも少し先の未来の話だとしながらも、もちろん研究としては視野に入れていると言います。髙橋誠史氏(以下、髙橋氏)は「文章を入れたらいい感じのモーションが生成される」というモデルの実用化まで、あと2、3年というところではないかと言います。

こうした先行研究をサーベイしながら、多数のキャラクター、個性的なメタバースアバターへの長期的な活用につながるということで、モーションスタイル変換の研究を進めていくことになります。実際のゲームに組み込むというより、まずは「データを入れてデータが出てくる」という部分で考えていきました。
今回のプロジェクトの座組みに当たって、「CG」「モーションアニメーション」「AI」の3つの領域の専門家が必要です。内部リソースの稼働の問題もあり、株式会社ACEに協力を依頼するという体制でスタートしました。
モーションスタイル変換とは
では、モーションスタイル変換で何ができるようになるのでしょうか。モーションスタイル変換の技術についてはACEの小林真輝人氏(以下、小林氏)から解説がありました。ACEは2017年創業の東京大学松尾研発のAIスタートアップで、以前からカメラ映像を使った運動認識のAI開発に取り組んでいます。
小林氏は、まず「モーションスタイルの変換(Motion Style Transfer)」というタスクについて、もともとは画像のスタイルトランスファー(Style Transfer)のモーション版にしたものだと言います。つまり、もともとのモーションのコンテンツの情報を維持したままスタイルの情報を変換した新しいモーションを生成するタスクということになります。

画像の場合、たとえば船の画像であれば「船が写っている」というところがコンテンツに当たります。それに対しスタイルは画風のようなもので、スタイルトランスファーというタスクのアウトプットは「コンテンツとスタイルを掛け合わせたトランスファーの結果」です。
モーションの場合は、たとえば歩いているというような「何をしているか」という情報がコンテンツで、スタイルは「どのように歩いているか」という情報になり、アウトプットは「そのスタイルを反映させて歩いているというモーション」になります。より具体的には、属性(年齢や性別など)や性格によるキャラクターの”らしさ”やキャラクターの感情、状態(「元気だ」とか「疲れている」とか)というような情報が具体的なモーションにおけるスタイルに該当します。
今回、いくつかあるモーションスタイル変換に関する関連研究の中から、Abermanの2020年の論文をベースとして進めることにしました。小林氏は、2020年時点での比較とした上で、Abermanの論文の優れている点として、ペアではない学習データでも学習が可能であるという点、また学習データセットにふくまれていない未学習のスタイルに変換できる点、動画からそのままスタイルが抽出できるといった点を挙げています。それらの利点が、この「キャラクターのモーションの作成」という目的に適切であると考えたのです。

2022年の現在、モーションスタイル変換はさらに研究が進んでおり、前述のMotion Puzzleのように部位ごとにスタイルが反映できたり、関節間の空間的な関係を考慮した変換ができるといったようなところも進んでいるといいます。

独自の改善点:ボーン構造の変更とROOT位置
Abermanの2020年の論文をベースにはしていますが、独自の改善をかなり行っています。
たとえば、ボーン構造の変更です。理由として、アカデミアの研究開発で使われているボーン構造と一般的なゲーム開発などで用いられるボーン構造が異なるということがあります。図の左がもともとの論文で使われているボーン構造で、右がこのプロジェクト内で収録したデータセットで使っているボーン構造です。
そもそものプロポーションが違っているし、腰と股関節のジョイントの位置関係や複数のジョイントが重なって存在したり、回転の定義の仕方などの相違点が多々あります。このまま現在のゲーム開発で使われているボーンにこの左側のボーンで作られたモーションを適用するのは難しいということで、今回、一般的なゲーム開発で用いられているボーン構造で学習データを用意することになりました。学習データだけではなく、変更したボーン構造で学習できるようモデル側の修正も必要でした。

また、アルゴリズムの調整も行っています。もともとの論文では、腰を基準にジョイントの位置情報を取得してモーションスタイルの変換を行います。このとき、腰の位置は入力時のROOTの位置をそのまま適用しています。しかし、そうすると腰の動きに関してスタイルの反映ができないということになります。そこで、位置の基準となるジョイントをコンテンツの動作を元に選定するというアプローチを採りました。

モーションスタイルの変換例
実際に変換した結果は、というと、次の図は「歩き」というコンテンツを男性から女性のスタイルに変換したものです。このように、各スタイルが反映され、かつ、歩いているというコンテンツが維持されたモーションが出力できます。

さらに、「元気」「疲労」「子供」「老人」というスタイルに関しても、コンテンツを維持してスタイルを反映したなめらかなモーションが生成できます。

また、「走り」という動作に関してもコンテンツを維持してスタイルを反映した、なめらかなモーションが生成できています。「走り」は「歩き」に比べるとモーションが激しいため、難易度的には少し上がります。


3Dアニメーターがプロジェクトにいる意味
でき上がったモーションや研究開発の過程におけるモーションデータに関するディレクションを監修していたのが、株式会社バンダイナムコ研究所の森本直彦氏(以下、森本氏)です。
森本氏は、バンダイナムコスタジオで長く3Dアニメーターとしてゲーム制作に携わり、現在バンダイナムコ研究所にてアニメーションに関わるR&Dを行っています。まず、今回のプロジェクトにおいて、アニメーションの専門家として3つの役割があったと振り返ります。
- データセット構築のためのモーションキャプチャーに関するすべて:モーションキャプチャーは特殊な分野のため、スケジューリングやキャスティング、収録の進め方など、すべてを担当
- プロジェクト全体を通じて、アウトプットされた結果そのものの品質をある程度見極める:現状のAI研究はそれぞれ非常に興味深い成果を出しているが、実際に商品にしようとしたときに求められる完成度とは別。ときに非常に厳しい意見をフィードバックとして出すことも多々あった
- 専門家としての視点からの気付きやアドバイス:「動き」という点だけに着目してきた長年のアニメーターとしての経験からの知見や気付きをフィードバックする
森本氏は、特にデータセットへの落とし込み(モーションの収録)という点で、今回のプロジェクトで痛感したのは圧倒的なデータ量が必要となるというところだったと言います。手探りで進めていたこともあるとはいえ、たとえば1つのモーション(「歩き」や「走り」など)に対し、スタイルを掛け算していくとすぐに100モーションというような数字になってしまいます。1モーションが5分だとすると100モーションで500分、まともに収録すると収録日数もふくめたモーションキャプチャの費用だけで何千万円という途方もない金額になります。とても研究予算の中に収まりません。
そのため、AIのエンジニアと相談しながら、本当に必要な内容を残しつつ、全体の収録量を現実的なラインに落とし込んでいったそうです。データセットについては次項でも触れますが、データセットを設計する際の気づきとして指摘したのが「モーション(動作そのもの)とアニメーションを意識的に分けて考える」ことです。
たとえば「手を挙げる」動作はモーションです。それに対して、その動作に目的をふくめて表現したものがアニメーションだという考え方です。人間が「手を挙げる」のは遠くにいる人への挨拶であったり、あるいは意見があることを示したい場合だったり、その動作には目的があるわけです。
アニメーターにとっては動作そのものよりもその目的のほうが重要で、動作は目的に付随したものという位置づけです。そういった目的のほうに着目して動きをイメージしたり表現したりということを無意識にしがちなのですが、一方で、AIは学習する際にその動きの意味や目的は認識していません。AIはあくまで動作そのものしか見ないので、AIに学習させる内容を検討する際には人間の側も意識的に動作のほうに着目して考えるようにしなければ、なかなかAIに学習させやすいデータセットは作れないのではないかと言います。
これは非常に興味深い観点で、目的が異なっても同じ「動作」にカテゴライズできるものはあるわけで、そういった整理を事前にしっかりしておくことでノイズの少ない、学習しやすいデータセットを作ることができるのではないかということです。
また、演者(モーションアクター)の難易度が非常に高いというところも留意点として挙げています。ゲームのモーション収録では、せいぜい数百秒の収録です。しかし前述のように、AIが学習するためのデータセットに必要な収録は数時間、場合によっては数十時間かかります。アクターにとっては体力勝負になります。
さらに、ただ動けばいいわけではなくて、スタイルを学習させるためのデータなので、常にスタイルの違いなどを反映した質の高い動きを保ってもらう必要があります。実際、今回のプロジェクトではアクターとして非常に高いスキルを持つ演者に依頼したそうです。ちなみに、収録はバンダイナムコスタジオのモーションキャプチャスタジオで行っています(Viconの光学式モーションキャプチャシステムで収録)。
データセットの設計について
データセットの設計に関する先行研究として参考にしたものとして「Ubisoft La Forge Animation Dataset(”LAFAN1″)」や「100STYLE dataset, I3D 2022」があります。

データセットの概要としては、次の図のとおりです。コンテンツやスタイルの種類が豊富なMotiondataset-1と1種類のモーションの収録量が多いMotiondataset-2があります。大きな違いは、Motiondataset-2のほうが1種類あたりのフレーム数が圧倒的に多いという点です。Motiondataset-1とMotiondataset-2があるのは収録を2回行っているからです。要は、Motiondataset-1を使った実験の結果に基づいて、AIがより学習しやすいようにMotiondataset-2を収録した、ということになります。
たとえば「歩く」×「悲しい」と「歩く」×「楽しい」で生成した結果どちらも同じようになってしまう、そうした点を反映するために、同一スタイルの中の表現のばらつきを解消する、1種類あたりのデータ量を多くするなどして収録を行いました。
また、変換に使っているモデルのアルゴリズムの部分も改良し、学習難易度を下げるために似たようなコンテンツでカテゴライズし、モデルを使い分けるという形にしています。その結果、アウトプットの質も大きく改善したと言います。


モーションデータのデータセットを設計する上で、今後の課題として高橋氏が指摘するのは、データのラベリングやアノテーションの仕方といった部分です。今回のデータセットに関しては「歩く」「走る」というようなアクションそのもののコンテキストと、男性女性老人若者というようなスタイルをファイル名に入れるという命名規則で十分でしたが、より複雑な処理をしようとした場合、ラベリングやアノテーションの仕方が課題になってくると考えています。
バンダイナムコ研究所では、今回のプロジェクトで使用したデータセットを公開しています。 モーション変換アルゴリズムだけでなく、こうしたさまざまな先行研究を利用する中で、自分たちも何か業界やアカデミアに返せるものがないかということで、今回、データセットの公開を行ったそうです。

今回のプロジェクトはデータセットを公開したところが終了ではなく、この後、これを活用していくというところが自分たちの技術開発において礎になると考えています。今、文章から絵を自動生成するAIモデルが世の中を席巻していますが、これはモーションの世界でも起こるでしょう。そうしたとき、ツールの形で利用するのか、自分たちでモーションデータを収録して研究開発するのか、2つの選択肢があるが、どちらにしてもアンテナを張っておくという意味でこうした研究開発の意味は大きいと高橋氏は言います。
今後も、こうしたチャレンジを続けて、データセットの更新や論文化を進めていく予定です。
Writer:大内孝子