モリカトロン株式会社運営「エンターテインメント×AI」の最新情報をお届けするサイトです。

TAG LIST
CGCGへの扉機械学習安藤幸央ディープラーニングGAN月刊エンタメAIニュース河合律子OpenAIニューラルネットワーク音楽NVIDIA強化学習三宅陽一郎吉本幸記FacebookQA人工知能学会GPT-3自然言語処理大内孝子敵対的生成ネットワークGoogleDeepMindキャラクターAIスクウェア・エニックス森川幸人モリカトロンAIラボインタビュールールベースシナリオAIと倫理グーグルデバッグDALL-E2StyleGAN映画倫理ゲームプレイAIマイクロソフトNFTアート自動生成SIGGRAPHメタAIロボット深層学習CEDEC2019プロシージャル遺伝的アルゴリズムDALL-Eテキスト画像生成ビヘイビア・ツリーディープフェイクCEDEC2021CEDEC2020ゲームAIデジタルツインメタバーステストプレイモリカトロン不完全情報ゲームVRナビゲーションAINPC畳み込みニューラルネットワークCLIPGDC 2021JSAI2022VFXGDC 2019マルチエージェントCEDEC2022AIアートボードゲーム画像生成ファッション懐ゲーから辿るゲームAI技術史toioCNNAdobeStable DiffusionUnity著作権小説鴫原盛之HTN階層型タスクネットワーク汎用人工知能JSAI2020TensorFlowインタビューBERTMicrosoftイベントレポート対話型エージェントロボティクス水野勇太アニメーションGenvid Technologiesガイスター画像生成AIStyleGAN2GTC2022教育ソニーJSAI2021スポーツ研究シムピープルマンガマーケティングGDC SummerバーチャルヒューマンブロックチェーンMidjourneyアストロノーカキャリアNVIDIA OmniverseeスポーツAmazoneSportsDQNBLUE PROTOCOLシーマンMinecraftアバターOmniverseUbisoftメタAlphaZeroTransformerGPT-2AIりんなカメラ環世界中島秀之哲学理化学研究所SIGGRAPH ASIADARPAドローンシムシティImagenバイアスMCS-AI動的連携モデルモーションキャプチャーTEZUKA2020AI美空ひばり手塚治虫バンダイナムコ研究所スパーシャルAIElectronic ArtsメタデータLEFT 4 DEAD通しプレイOpenAI Five本間翔太CMピクサープラチナエッグイーサリアム作曲ボエダ・ゴティエビッグデータ中嶋謙互Amadeus Codeデータ分析Microsoft AzureMILE模倣学習ナラティブアーケードゲームOmniverse ReplicatorWCCFレコメンドシステムNVIDIA DRIVE SimWORLD CLUB Champion FootballNVIDIA Isaac Simセガ柏田知大軍事サイバーエージェント田邊雅彦トレーディングカードトレカ音声認識メディアアートPyTorch眞鍋和子バンダイナムコスタジオaibo合成音声Meta齊藤陽介マインクラフトお知らせMagic Leap Oneチャットボットサルでもわかる人工知能VAE3DCGリップシンキングUbisoft La Forge自動運転車ワークショップ知識表現ウォッチドッグス レギオンIGDA秋期GTC2022どうぶつしょうぎEpic Gamesジェイ・コウガミ音楽ストリーミングMITAIロボ「迷キュー」に挑戦野々下裕子徳井直生マシンラーニング5GMuZeroRival Peakクラウド対話エンジン斎藤由多加リトル・コンピュータ・ピープルCodexコンピューティショナル・フォトグラフィーゴブレット・ゴブラーズ絵画rinnaシミュレーションデジタルヒューマン完全情報ゲーム坂本洋典釜屋憲彦ウェイポイントパス検索対談ベリサーブ藤澤仁生物学Playable!GTC 2022画像認識SiemensStyleCLIPDeNA長谷洋平masumi toyota宮路洋一OpenSeaGDC 2022TextWorldEarth-2MagentaSFELYZA PencilGTC2021CycleGANデータマイニングNetHackはこだて未来大学キャラクターモーションフェイクニュースエージェントRPGSIGGRAPH 2022AIボイスアクターNVIDIA CanvasGPUALifeZork人工生命オルタナティヴ・マシンサウンドスケープASBS栗原聡ぱいどんテキスト生成不気味の谷ナビゲーションメッシュ松井俊浩ELYZAフルコトELYZA DIGEST3D音声合成西成活裕Apex LegendsELIZA群衆マネジメントNinjaコンピュータRPGライブビジネスアップルタウン物語新型コロナKELDIC周済涛メロディ言語清田陽司ゲームTENTUPLAYサイバネティックスMARVEL Future FightAstro人工知能史タイムラプスEgo4DAI哲学マップバスキア星新一日経イノベーション・ラボStyleGAN-XL敵対的強化学習StyleGAN3階層型強化学習GOSU Data LabGANimatorWANNGOSU Voice AssistantVoLux-GAN竹内将SenpAI.GGProjected GANMobalyticsSelf-Distilled StyleGAN馬淵浩希Cygamesニューラルレンダリング岡島学AWS SagemakerPLATO映像セリア・ホデント形態素解析frame.ioUXAWS LambdaFoodly誤字検出森山和道認知科学中川友紀子ゲームデザインSentencePieceアールティLUMINOUS ENGINELuminous ProductionsBlenderBot 3パターン・ランゲージ竹村也哉Meta AIちょまどマーク・ザッカーバーグGOAPWACULAdobe MAX 2021自動翻訳AIライティングOmniverse AvatarAIのべりすとFPSNVIDIA RivaQuillBotマルコフ決定過程NVIDIA MegatronCopysmithNVIDIA MerlinJasperスタンフォード大学NVIDIA Metropolisパラメータ設計テニスバランス調整協調フィルタリング人狼知能テキサス大学AlphaDogfight TrialsAI Messenger VoicebotエージェントシミュレーションOpenAI CodexStarCraft IIHyperStyleMax CooperFuture of Life InstituteRendering with StyleIntelDisney類家利直LAIKADisneyリサーチヴィトゲンシュタインRotomationGauGAN論理哲学論考GauGAN2京都芸術大学ドラゴンクエストライバルズ画像言語表現モデル不確定ゲームSIGGRAPH ASIA 2021PromptBaseDota 2モンテカルロ木探索ディズニーリサーチMitsuba2バンダイナムコネクサスソーシャルゲームEmbeddingワイツマン科学研究所ユーザーレビューGTC2020CG衣装mimicNVIDIA MAXINEVRファッションBaidu淡路滋ビデオ会議ArtflowERNIE-ViLGグリムノーツEponym古文書ゴティエ・ボエダ音声クローニング凸版印刷Gautier Boeda階層的クラスタリングGopherAI-OCR画像判定JuliusSIE鑑定ラベル付けTPRGOxia Palus大澤博隆バーチャル・ヒューマン・エージェントtoio SDK for UnityArt RecognitionSFプロトタイピングクーガー田中章愛実況パワフルサッカー石井敦銭起揚NHC 2021桃太郎電鉄茂谷保伯池田利夫桃鉄GDMC新刊案内パワサカマーベル・シネマティック・ユニバースコナミデジタルエンタテインメント成沢理恵MITメディアラボMCU岩倉宏介アベンジャーズPPOマジック・リープDigital DomainMachine Learning Project CanvasMagendaMasquerade2.0国立情報学研究所ノンファンジブルトークンDDSPフェイシャルキャプチャー石川冬樹サッカーモリカトロン開発者インタビュースパコン里井大輝Kaggle宮本茂則スーパーコンピュータバスケットボール山田暉松岡 聡Assassin’s Creed OriginsAI会話ジェネレーターTSUBAME 1.0Sea of ThievesTSUBAME 2.0GEMS COMPANYmonoAI technologyLSTMABCIモリカトロンAIソリューション富岳初音ミクOculusコード生成AISociety 5.0転移学習テストAlphaCode夏の電脳甲子園Baldur's Gate 3Codeforces座談会Candy Crush Saga自己増強型AItext-to-imageSIGGRAPH ASIA 2020COLMAPtext-to-3DADOPNVIDIA GET3DデバッギングBigGANGANverse3DDreamFusionMaterialGANRNNグランツーリスモSPORTAI絵師ReBeLグランツーリスモ・ソフィーUGCGTソフィーPGCVolvoFIAグランツーリスモチャンピオンシップStability AINovelAIRival PrakDGX A100NovelAI DiffusionVTuberユービーアイソフトWebcam VTuberモーションデータ星新一賞北尾まどかHALO市場分析ポーズ推定将棋メタルギアソリッドVフォートナイトメッシュ生成FSMメルセデス・ベンツRobloxMagic Leapナップサック問題Live NationEpyllion汎用言語モデルWeb3.0マシュー・ボールAIOpsムーアの法則SpotifyスマートコントラクトReplica StudioAWSamuseChitrakarQosmoAdobe MAX 2022巡回セールスマン問題Adobe MAXジョルダン曲線メディアAdobe Research政治Galacticaクラウドゲーミングがんばれ森川君2号pixiv和田洋一リアリティ番組映像解析Stadiaジョンソン裕子セキュリティMILEsNightCafe東芝デジタルソリューションズインタラクティブ・ストリーミングLuis RuizSATLYS 映像解析AIインタラクティブ・メディアポケモン3DスキャンPFN 3D Scanシーマン人工知能研究所東京工業大学Ludo博報堂Preferred NetworksラップPFN 4D ScanSIGGRAPH 2019ArtEmisZ世代DreamUpAIラッパーシステムDeviantArtARWaifu DiffusionGROVERプラスリンクス ~キミと繋がる想い~元素法典FAIRSTCNovel AIチート検出Style Transfer ConversationOpen AIオンラインカジノRCPMicrosoft DesignerアップルRealFlowRinna Character PlatformイラストiPhoneCALADeep FluidsSoul Machines柿沼太一MeInGameAmeliaELSIAIGraphブレイン・コンピュータ・インタフェースバーチャルキャラクター大規模言語モデルBCIGateboxアフォーダンスLearning from VideoANIMAKPaLM-SayCan予期知能逢妻ヒカリPaLMセコムGitHub Copilotユクスキュルバーチャル警備システムCode as Policiesカント損保ジャパンCaP上原利之ドラゴンクエストエージェントアーキテクチャアッパーグラウンドコリジョンチェックPAIROCTOPATH TRAVELERChatGPT西木康智GPT-3.5OCTOPATH TRAVELER 大陸の覇者山口情報芸術センター[YCAM]アルスエレクトロニカ2019品質保証YCAMStyleRigAutodeskアンラーニング・ランゲージ逆転オセロニアBentley Systemsカイル・マクドナルドワールドシミュレーターローレン・リー・マッカーシー奥村エルネスト純いただきストリートH100鎖国[Walled Garden]​​プロジェクト齋藤精一大森田不可止COBOLSIGGRAPH ASIA 2022高橋智隆DGX H100VToonifyロボユニザナックDGX SuperPODControlVAE泉幸典仁井谷正充クラウドコンピューティング変分オートエンコーダーロボコレ2019Instant NeRFフォトグラメトリartonomous回帰型ニューラルネットワークbitGANsDeepJoinぎゅわんぶらあ自己中心派Azure Machine LearningAzure OpenAI Service意思決定モデル脱出ゲームDeepLHybrid Reward Architectureコミュニティ管理DeepL WriteウロチョロスSuper PhoenixSNSProject Malmoオンラインゲーム気候変動Project PaidiaProject Lookoutマックス・プランク気象研究所Watch Forビョルン・スティーブンスBing気象モデルLEFT ALIVE気象シミュレーション長谷川誠ジミ・ヘンドリックス環境問題Baby Xカート・コバーンエコロジーロバート・ダウニー・Jr.エイミー・ワインハウスSDGsYouTubeダフト・パンクメモリスタGlenn MarshallThe Age of A.I.Story2Hallucination音声変換レコメンデーションJukebox松尾豊Veap JapanEAPテンセントSIFT福井千春DCGAN医療MOBADANNCEメンタルケア人事ハーバード大学Edgar Handy研修デューク大学Netflixmynet.aiローグライクゲーム東京大学東京理科大学人工音声NeurIPS 2021産業技術総合研究所リザバーコンピューティングプレイ動画ヒップホップソニーマーケティングサイレント映画もじぱNBA環境音暗号通貨現代アートFUZZLEAlteration粒子群最適化法進化差分法オープンワールド群知能下川大樹AIFAウィル・ライト高津芳希P2E大石真史BEiTStyleGAN-NADAレベルデザインDETRゲームエンジンSporeUnreal Engineデノイズ南カリフォルニア大学Unity for Industry画像処理SentropyGLIDECPUDiscordAvatarCLIPSynthetic DataCALMプログラミングサム・アルトマンソースコード生成LaMDAGMAIシチズンデベロッパーSonanticTRPGGitHubCohereウィザードリィMCN-AI連携モデルマジック:ザ・ギャザリングAI DungeonUrzas.ai介護西川善司並木幸介Kikiサムライスピリッツ森寅嘉Zoetic AIゼビウスSIGGRAPH 2021ペットストリートファイター半導体Digital Dream LabsTopaz Video Enhance AICozmoDLSSタカラトミー山野辺一記NetEaseLOVOT大里飛鳥DynamixyzMOFLINRomiU-Netミクシィ13フェイズ構造アドベンチャーゲームユニロボットADVユニボXLandGatoAGI手塚眞DEATH STRANDINGマルチモーダルEric Johnson汎用強化学習AIデザインOculus Questコジマプロダクションロンドン芸術大学生体情報デシマエンジンGoogle BrainインディーゲームSound Control写真高橋ミレイSYNTH SUPER照明Maxim PeterKarl SimsJoshua RomoffArtnomeハイパースケープICONATE山崎陽斗深層強化学習立木創太松原仁浜中雅俊ミライ小町武田英明テスラ福井健策GameGANパックマンTesla BotNEDOTesla AI DayWikipediaソサエティ5.0SphereSIGGRAPH 2020バズグラフXaver 1000ニュースタンテキ養蜂東芝BeewiseDIB-R倉田宜典フィンテック投資韻律射影MILIZE広告韻律転移三菱UFJ信託銀行

【CEDEC2021】ゲーム制作をAIで効率化するCygamesのチャレンジ

2021.10.26ゲーム

【CEDEC2021】ゲーム制作をAIで効率化するCygamesのチャレンジ

CEDEC2021で行われたセッション「ゲーム制作効率化のためのAIによる画像認識・自然言語処理への取り組み」でCygamesの立福寛氏が講演したのは、社内の共通基盤ツールへのAI機能の導入についてです。AIモデルの学習プロセスについてはもちろん、インフラ構築、作業分担、デプロイ環境など、機能を支える背景の部分も取り上げた、新規にAI導入する際に非常に参考になる内容になっています。

物体検出/画像認識アルゴリズムを利用した自動タグ付け

まず取り掛かったのが、画像認識による自動タグ付けです。キャラクターが一人以上ふくまれる画像を入力すると、キャラクターの名前が表示される機能をリソース管理ツールに実装します。リソース管理ツールはWebベースで画像や動画のアップロードと検索閲覧、一括ダウンロードを行うことができます。タグ付けは手動で行っていますが、その作業プロセスにAIを使った自動レコメンド機能を追加します。

物体検出アルゴリズムを利用したキャラクター画像の自動タグ付けの概要

機械学習を用いた一般物体検知のアルゴリズム「SSD(Single Shot Multibox Detector)」を使っています。検出した物体に対しタグ付けを行うというもので、学習を行った後のモデルに画像を与えると物体の領域とクラス名が出力されます。そのうち、今回はクラス名だけをタグとして使用しています。実装にはオープンソースの「PyTorch」を使っています。

学習用のデータはすでに登録された画像データです。複数プロジェクトに使われており、1プロジェクト当たり数千枚の画像が登録されています。そのうち1プロジェクト分の画像を使って学習を行いました。ただ、対象は1キャラクターのみがふくまれる画像となります。これは、2人以上のキャラクターがふくまれた場合にどちらが誰か判別できないためです。今回はキャラクターが200人程度、画像の数はキャラクターごとに差があり、7枚から70枚です。画像に対し、OpenCVのアニメ顔認識モデルを適用し、キャラクターの顔の領域を取り出します。これにより、「画像」と「顔の領域」と「キャラクターの名前」の3つがセットで取得できます。

物体検出アルゴリズム(SSD)
SSDで学習した結果

ローカルPCで1日程度の学習を行ったところ、テストの精度は90%台前半という結果が出ました。これについて立福氏は次のようにまとめています。

  1. 学習データが多いキャラクターは認識精度が高い(逆も然り)
  2. 顔や髪型に特徴が少ない一部のキャラクターは誤認識が多い
  3. 大きくデフォルメされた画像の認識精度は低い(大きくデフォルメされた画像を学習データに入れると精度が大幅に下がった)

そのため、大きくデフォルメされた画像については別のモデルを用意したほうがよいと言えます。また、ゲームのキャラクターに特有の表現、例えば「顔に大きな角度が付いている」「片目が隠れている」などの場合は認識精度が落ちることも指摘しています。

また、背景画像については、画像認識アルゴリズムを使っています。今回はクラウドの機械学習プラットフォーム「AWS Sagemaker」を使って、1,400枚程度の画像データで学習を行いました。分類するクラスは180程度です。実際のデータでの精度は7割ほどです。

画像認識アルゴリズムによる背景画像の自動タグ付けの概要

自動タグ付け機能のデプロイ環境について

次はデプロイ環境について解説しました。もともとリソース管理ツールはAWS上に構築されているので、AWSで完結できればそれに越したことはありません。そこで、機械学習プラットフォーム「AWS Sagemaker」(以下、Sagemaker)に統一することにしました。

SagemakerはAWS上で機械学習モデルを利用するための統合環境で、さまざまな機械学習モデルの学習からエンドポイントの作成まで行うことができます。前述のように、背景画像のタグ付けに物体検出アルゴリズムをSagemaker上で使っています。キャラクターの顔認識も物体検出アルゴリズムで行います。

最初にオープンソースで組んだ実装より精度が下がったものの、学習データの画像を回転したり拡大縮小などを行いバリエーションを増やすことで解決し、下記の図のようにリソース管理ツールからAPI Gateway→Lambda→Sagemakerという構成で呼び出します。

初期実装

ただし、コスト面で問題が起こったため、最初に使用したオープンソースのSSDの実装をLambda上で動かすよう変更しました。Lambdaでは最大10GBまでユーザーのdockerイメージを動かすことができます。Pythonの機械学習モジュールはデプロイ時に問題になりやすいものの、dockerイメージで丸ごと持っていけるのは非常に楽であるため、お勧めの構成だと立福氏は言います。

最終的な実装

リソース管理ツール上で画像のアップロード中にタグの予測ボタンを押すと、自動タグ付け機能が呼び出され、ダグのレコメンドが行われます。確信度が80%以上の場合のみタグとして出します。自動タグ付け機能の処理は数秒ですが、Lambdaの仕様により初回呼び出し時は20秒程度かかるとのことです。

リソース管理ツールへの組み込み

シナリオ執筆ツールにおける表記揺れ・誤字検出機能

画像への自動タグ付け機能の開発が終わり社内でヒアリングを行ったところ、シナリオ執筆ツールで誤字を検出してほしいという要望が出たことから、次に誤字検出機能を開発することになりました。

シナリオ執筆ツールはWebベースのシナリオ作成環境で、シナリオの執筆、監修、台本の印刷、音声の管理ができます。Web APIでシナリオを一括で取得することができ、フォーマットも完全に統一されており、AIの学習データを簡単に用意することができます。

シナリオ執筆ツールの概要
シナリオ執筆ツール向けの表記揺れ機能の概要

こちらは形態素解析とルールベースでの実装です(参考論文:シナリオ執筆ツールへの表記揺れ機能)。形態素解析とは文章をトークンと呼ばれる単語単位に分割する処理のことで、この形態素解析を使って次のように表記揺れを検出します。まず入力された文章を形態素解析し、名詞を取り出します。この時に連続している名詞は結合して1つの単語として扱います。次に、単語と単語を比較して表記揺れスコアを求めます。このスコアが高いほど表記揺れの可能性が高いことになります。例えば、図のように「たこ焼」「たこ焼き」の表記揺れ、「一時間」「1時間」の表記揺れと判断できます。

形態素解析とは
表記揺れ機能のアルゴリズム

形態素解析モジュールには代表的なものにmecabなどがありますが、比較した結果、juman++を採用しました。juman++はRNNを用いて単語の並びの意味的な自然さを考慮した解析を行う点が特徴で、話し言葉が多いゲームのシナリオには適していると判断したのです。

2つの形態素解析モデル

今回はスコアの高い順に30個を返す関数として実装しました。スコアの計算は先に挙げた論文を参考にしています。この時、計算に必要な要素は「編集距離」と「出現回数」です。単語Aを単語Bにするために必要な手順の数を編集距離とし、単語間の編集距離が小さいほどスコアが大きくなるという仕組みです。また、単語の出現回数の差が大きい場合にスコアが大きくなるようにしています。

例えば「たこ焼き」を「タコ焼」にするには2つの文字を置き換えることになるので編集距離は2です。出現回数も10と1なので、スコアは高くなります。

表記揺れスコア

今回はスコアの高い順に30個を返す関数として実装し、AWS Lambdaへ持っていきました。ただ、この機能の開発時はまだLambda上でdockerイメージが使えなかったため、通常のLambdaパッケージを作っています。EFSファイルシステムをLambdaにマウントして、大きいファイルはそちらから読み込んで関数を実行します。

AWS Lambdaでの実装

シナリオ執筆ツール上で表記揺れを調べたいシナリオを選択してボタンを押すと、表記揺れ機能のAPIが呼び出されるという仕組みです。表記揺れの可能性がある部分が赤くハイライトされて正しい候補が右側に表示されます。

シナリオ執筆ツールへの組み込み

社内のユーザーからも好評で、名詞に加えて動詞の表記揺れ検出機能も欲しいというリクエストにも対応しています。同時に単語を指定して表記揺れを探す機能も追加しました。

シナリオ執筆ツールにおける誤字検出機能

こちらも社内のユーザーからの要望に応え、開発した機能です。機械学習を利用した誤字検出は有料のサービスが複数存在しますが、毎月の課金がかかるのとデータの機密の問題もあり、独自実装することになりました。論文「Bidirectional LSTMを用いた誤字脱字検出システム」を参考に、一部のアルゴリズムを変更して新たな自然言語処理モデルとして実装しています。

まず自然言語処理モデル「BERT」を使って、入力された文章を「誤字がないもの」と「誤字があるもの」に分類します。次に、誤字があると判断された文章を形態素解析して単語ごとの出現順を別のBERTモデルで求めます。出現順が低い単語は誤字の可能性が高いということになります。単語ごとの出現順をランダムフォレストと呼ばれるモデルに入力して最終的な誤字の位置を求めています。

なお、BERTは2018年にGoogleが発表した自然言語処理モデルで、翻訳や文章分類などのタスクで当時の最高スコアを出したことで一躍有名になりました。今回は文章分類、単語の出現順の推論の2つのタスクに使っています。現在、BERTよりも新しいモデルが出ていますが、広く利用されて情報が多い点と、日本語の学習済みモデルが複数公開されていることが利点です。

誤字検出アルゴリズムの概要

各機械学習モデルの説明になりますが、「文章を誤字なし・ありに分類する」モデルにはBERTの文書分類タスクが使われています。学習データとして、ニュース記事とジャンルの組み合わせを用意して学習させ、学習済みのBERTへニュース記事を入力すると適切なジャンルが取得されるというものです。ここでは「誤字がない文章」と「誤字がある文章」の2種類を分類するBERTモデルを作ります。実装はBERTとTensorflow、形態素解析はSentencePieceという構成です。

学習データは「誤字なし」と「誤字あり」の2つ、元の文章と誤字をふくむ文章を1:5で用意してBERTの文章分類で学習させます。誤字のパターンはシナリオ執筆ツールを利用している社内のユーザーから文章校正のテキストを提供してもらい、そこから抽出しています。

文章分類のモデルの学習

元の文章と誤字を入れた文章を先ほど学習したモデルへ入力して推論を行います。この時出力されるのは、単語ごとの出現順のリストです。この値を次のモデルの学習データとして使います。この時誤字を入れた位置を目的変数として追加しておきます。誤字がない文章の場合は「-1」を入れます。

最後は、誤字の位置を求めるモデルです。前のモデルから出力された単語の出現順の並びから最終的な誤字の位置を決定します。前のモデルから出力された値のうち、誤字の位置が機械学習における目的変数、それ以外の単語の出現順の値が説明変数となります。この2つをセットにした学習データを使って学習を行います。使用するモデルはランダムフォレスト、scikit-learnの実装を使っています。

誤字の位置を求めるモデルとその学習
誤字の位置を求めるモデルの実行結果

ただ、こちらの精度は35〜45%程度という結果です。当初は誤字のパターンを少なくしていたので精度が高かったのですが、誤字のパターンを増やしたところ精度が下がってしまいました。誤字の位置を間違って検出してしまうケースが15%程度、残りの50%は誤字があるのに誤字がないと推論してしまうようです。

図で示す例は「イベントは大盛況のちに終わった」という文章の「のち」の部分に誤字があるケースで、これは正しく予測できています。もう1つは、「素敵な歌詞になたと思う」という文章の「なた」の部分に誤字があるのですが、「素敵な」の部分に誤字があると間違えて予測した例です。

ここまでローカルで実装した関数をAWS Lambda上へ持っていきました。Dockerのイメージが大きくなると、Lambdaの更新に時間がかかるため、学習したモデルをDockerイメージにふくめずに別のファイルシステムから読み込む形にしています。

また、Lambdaで実行してみたところインフラ側の制限時間(30秒)に引っかかってしまうことがわかりました。真ん中の単語の出現順を求めるモデルが非常に重く、CPU実行では大半の時間をそこで使ってしまうのです。そこで、AWSのStepFunctionsによる非同期呼び出しの仕組みを追加しました。最初にLambdaで関数の実行を開始し、しばらく経ってから結果を問い合わせて、終わっていれば結果を受け取るという形です。これにより、Lambdaの最大タイムアウト時間の10分まで処理を行えるようになりました。

AWS StepFunctionsによる非同期呼び出し

この非同期呼び出しの仕組みに合わせてシナリオ執筆ツールのUIを変更し、処理を開始すると画面をすぐに戻し、実行中の処理は別の画面で見るようにしました。表記揺れも同じ扱いです。このように、UIを工夫することでAIの処理時間を隠蔽することができます。

シナリオ執筆ツールのUI変更

AIエンジニアがインフラ構築も兼ねる

作業分担は以下のとおりです。画像認識、表記揺れ機能に関しては、AIエンジニア、インフラエンジニア、ツール開発者の3人での作業分担でしたが、誤字検出ではAIエンジニアがインフラ構築も担当する形になっています。これについて立福氏は、機械学習向けのインフラ構築はゲーム運用やWebサービス運用とは勝手が違ってインフラ担当でも実績がないこともあり、AIエンジニアが試行錯誤できるようにインフラ構築まで兼任したほうが話が早い場合もあると分析しています。

画像認識

AIの学習・APIの作成(1人)

– 機械学習モデルの作成(2か月)

– デプロイ(2か月)

AWSのインフラ構築(1人)

– インフラ担当者(1週間)

リソース管理ツールへの機能追加(1人)

– ツールの開発者(1週間)

表記揺れ

機械学習の学習・APIの作成(1人)

– 機能開発(2か月)

– デプロイ(1か月)

AWSのインフラ構築(1人)

– インフラ担当者(2日)

リソース管理ツールへの機能追加(1人)

– ツール開発者(1週間)

誤字検出

機械学習の学習・APIの作成、AWSのインフラ構築(1人)

– 機械学習モデルの作成(4か月)

– インフラ構築(2週間)

– デプロイ(1.5か月)

リソース管理ツールへの機能追加(1人)

– ツール開発者(2週間)

AWS上でInfrastructure as Code(IaC;コードによるインフラ構築運用)を行う「AWS CDK」を使うことで、簡単にインフラ構築が行えたそうです。図のようにAPI Gateway+Lambdaの既存構成にSTEP functionを追加した形になっています。

AWS CDKによるインフラ構築

今回の試みの背景には、ゲーム開発におけるAIの導入事例も増え、情報にアクセスしやすくなったことがあります。また、リソース管理ツールやシナリオ執筆ツールのような共通基盤ツールがあると、機械学習の学習データを用意するのが比較的容易になります。このあたりが開発現場にAIを導入する際のポイントになると言えそうです。

Writer:大内孝子

RELATED ARTICLE関連記事

ディープフェイクの発展と検出のいたちごっこ:月刊エンタメAIニュース vol.29

2022.5.20ゲーム

ディープフェイクの発展と検出のいたちごっこ:月刊エンタメAIニュース vol.2...

「森川幸人の未公開ゲーム案」置き手紙としての仕様書:第1回 長い前置きと『ミーム』

2021.8.03ゲーム

「森川幸人の未公開ゲーム案」置き手紙としての仕様書:第1回 長い前置きと『ミーム...

20年間稼働を続けたアーケードゲーム『WCCF』シリーズを支えたAI開発の舞台裏:懐ゲーから辿るゲームAI技術史vol.5<前編>

2022.8.30ゲーム

20年間稼働を続けたアーケードゲーム『WCCF』シリーズを支えたAI開発の舞台裏...

RANKING注目の記事はこちら