モリカトロン株式会社運営「エンターテインメント×AI」の最新情報をお届けするサイトです。

TAG LIST
CGCGへの扉機械学習安藤幸央ディープラーニング月刊エンタメAIニュースGAN河合律子OpenAINVIDIA音楽吉本幸記ニューラルネットワーク三宅陽一郎強化学習GoogleQAグーグルDeepMindGPT-3Facebook自然言語処理人工知能学会大内孝子森川幸人敵対的生成ネットワークシナリオキャラクターAIスクウェア・エニックスモリカトロンAIラボインタビューマイクロソフトルールベースStable DiffusionAIと倫理アート映画デバッグNFTDALL-E2StyleGAN倫理ゲームプレイAI自動生成SIGGRAPHモリカトロンメタAIテキスト画像生成ロボット深層学習ファッションCEDEC2019プロシージャルVFXデジタルツイン遺伝的アルゴリズムテストプレイNPCDALL-ECLIP画像生成大規模言語モデルChatGPTビヘイビア・ツリーディープフェイクCEDEC2021CEDEC2020ゲームAIメタバース不完全情報ゲームVRナビゲーションAI画像生成AIボードゲーム畳み込みニューラルネットワークGDC 2021JSAI2022生成系AIAdobeGDC 2019マルチエージェントCEDEC2022著作権AIアート懐ゲーから辿るゲームAI技術史toioジェネレーティブAICNNMicrosoftNVIDIA OmniverseUnity小説アニメーション鴫原盛之HTN階層型タスクネットワークマンガ汎用人工知能JSAI2020GTC2023TensorFlowインタビューバーチャルヒューマンBERTMidjourneyイベントレポート対話型エージェントAmazonロボティクスMetaMinecraft水野勇太アバターOmniverse3DCGUbisoftGenvid TechnologiesガイスターStyleGAN2GTC2022教育ソニーJSAI2021スポーツ研究シムピープルMCS-AI動的連携モデルマーケティングGDC SummerLLMブロックチェーン作曲アストロノーカキャリアeスポーツスタンフォード大学サイバーエージェント音声認識eSportsDQNBLUE PROTOCOLシーマンStability AIメタAlphaZeroTransformerGPT-2rinnaAIりんなデジタルヒューマンカメラ環世界中島秀之PaLM哲学ベリサーブPlayable!理化学研究所SIGGRAPH ASIANetflix東京大学DARPAドローンシムシティImagenZorkバイアスモーションキャプチャーTEZUKA2020AI美空ひばり手塚治虫テキスト生成バンダイナムコ研究所スパーシャルAIElectronic Arts3DメタデータLEFT 4 DEAD通しプレイOpenAI Five本間翔太CMAudio2Faceピクサープラチナエッグイーサリアムボエダ・ゴティエビッグデータ中嶋謙互Amadeus Codeデータ分析Microsoft AzureMILE模倣学習ナラティブNVIDIA RivaアーケードゲームOmniverse ReplicatorWCCFレコメンドシステムNVIDIA DRIVE SimWORLD CLUB Champion FootballNVIDIA Isaac Simセガ柏田知大軍事田邊雅彦トレーディングカードトレカメディアアートGPTPyTorch眞鍋和子バンダイナムコスタジオaibo合成音声齊藤陽介マインクラフトお知らせMagic Leap Oneチャットボットサルでもわかる人工知能VAEDreamFusionリップシンキングUbisoft La Forge自動運転車ワークショップ知識表現ウォッチドッグス レギオンIGDA秋期GTC2022市場分析どうぶつしょうぎEpic Gamesジェイ・コウガミ音楽ストリーミングMITAIロボ「迷キュー」に挑戦AWS野々下裕子徳井直生マシンラーニング5GMuZeroRival Peakpixivクラウド対話エンジン斎藤由多加リトル・コンピュータ・ピープルCodexコンピューティショナル・フォトグラフィーゴブレット・ゴブラーズ絵画ARMicrosoft Designerイラストシミュレーション完全情報ゲーム坂本洋典釜屋憲彦ウェイポイントパス検索対談藤澤仁生物学GTC 2022画像認識GPT-3.5SiemensStyleCLIPDeNA長谷洋平masumi toyota宮路洋一OpenSeaGDC 2022Gen-1TextWorldEarth-2BingMagenta音楽生成AISFELYZA Pencil松尾豊GTC2021CycleGANテンセントデータマイニングNetHackはこだて未来大学Bardキャラクターモーションフェイクニュース現代アートエージェントRPGSIGGRAPH 2022レベルデザインAIボイスアクターNVIDIA CanvasGPUALife人工生命オルタナティヴ・マシンサウンドスケープLaMDATRPGAI DungeonプロンプトASBS栗原聡ぱいどんアドベンチャーゲーム不気味の谷ナビゲーションメッシュ松井俊浩ELYZAフルコトELYZA DIGEST建築音声合成NeRF西成活裕Apex LegendsELIZA群衆マネジメントライブポートレイトNinjaコンピュータRPGライブビジネスWonder Studioアップルタウン物語新型コロナ土木KELDIC周済涛BIMメロディ言語清田陽司インフラゲームTENTUPLAYサイバネティックスMARVEL Future FightAstro人工知能史Amazon BedrockタイムラプスEgo4DAI哲学マップイーロン・マスクバスキア星新一X.AI日経イノベーション・ラボStyleGAN-XLX Corp.敵対的強化学習StyleGAN3Twitter階層型強化学習GOSU Data LabGANimatorXホールディングスWANNGOSU Voice AssistantVoLux-GANMagi竹内将SenpAI.GGProjected GANStable Diffusion XLMobalyticsSelf-Distilled StyleGANSDXL馬淵浩希CygamesニューラルレンダリングRTFKT岡島学AWS SagemakerPLATONIKE映像セリア・ホデント形態素解析frame.ioClone XUXAWS LambdaFoodly村上隆誤字検出森山和道認知科学中川友紀子Digital MarkゲームデザインSentencePieceアールティSnapchatLUMINOUS ENGINEクリエイターコミュニティLuminous ProductionsBlenderBot 3バーチャルペットパターン・ランゲージ竹村也哉Meta AINVIDIA NeMo Serviceちょまどマーク・ザッカーバーグヴァネッサ・ローザGOAPWACULVanessa A RosaAdobe MAX 2021陶芸自動翻訳Play.ht音声AIAIライティングLiDAROmniverse AvatarAIのべりすとPolycamFPSQuillBotdeforumマルコフ決定過程NVIDIA MegatronCopysmith動画生成AINVIDIA MerlinJasperハーベストNVIDIA MetropolisForGamesパラメータ設計テニスゲームマーケットバランス調整岡野翔太協調フィルタリング郡山喜彦人狼知能テキサス大学ジェフリー・ヒントンGoogle I/O 2023AlphaDogfight TrialsAI Messenger VoicebotGoogle I/OエージェントシミュレーションOpenAI Codex武蔵野美術大学StarCraft IIHyperStyleMax CooperBingAIFuture of Life InstituteRendering with StyleIntelDisney類家利直FireflyLAIKADisneyリサーチヴィトゲンシュタインPhotoshopRotomationGauGAN論理哲学論考LightroomGauGAN2京都芸術大学Canvaドラゴンクエストライバルズ画像言語表現モデルChatGPT4不確定ゲームSIGGRAPH ASIA 2021PromptBaseBOOTHDota 2モンテカルロ木探索ディズニーリサーチpixivFANBOXMitsuba2バンダイナムコネクサス虎の穴ソーシャルゲームEmbeddingワイツマン科学研究所ユーザーレビューFantiaGTC2020CG衣装mimicとらのあなNVIDIA MAXINEVRファッションBaidu集英社淡路滋ビデオ会議ArtflowERNIE-ViLG少年ジャンプ+グリムノーツEponym古文書ComicCopilotゴティエ・ボエダ音声クローニング凸版印刷コミコパGautier Boeda階層的クラスタリングGopherAI-OCRゲームマスター画像判定Inowrld AIJuliusSIE鑑定ラベル付けMODTPRGOxia Palus大澤博隆Ghostwriterバーチャル・ヒューマン・エージェントtoio SDK for UnityArt RecognitionSFプロトタイピングSkyrimクーガー田中章愛実況パワフルサッカースカイリム石井敦銭起揚NHC 2021桃太郎電鉄RPGツクールMZ茂谷保伯池田利夫桃鉄ChatGPT_APIMZGDMC新刊案内パワサカダンジョンズ&ドラゴンズマーベル・シネマティック・ユニバースコナミデジタルエンタテインメントOracle RPG成沢理恵MITメディアラボMCU岩倉宏介深津貴之アベンジャーズPPOxVASynthマジック・リープDigital DomainMachine Learning Project CanvasLaser-NVMagendaMasquerade2.0国立情報学研究所TencentノンファンジブルトークンDDSPフェイシャルキャプチャー石川冬樹MERFサッカーモリカトロン開発者インタビュースパコンAlibaba里井大輝Kaggle宮本茂則スーパーコンピュータVQRFバスケットボール山田暉松岡 聡nvdiffrecAssassin’s Creed OriginsAI会話ジェネレーターTSUBAME 1.0NeRFMeshingSea of ThievesTSUBAME 2.0LERFGEMS COMPANYmonoAI technologyLSTMABCIマスタリングモリカトロンAIソリューション富岳TikTok初音ミクOculusコード生成AISociety 5.0リアム・ギャラガー転移学習テストAlphaCode夏の電脳甲子園グライムスBaldur's Gate 3Codeforces座談会BoomyCandy Crush Saga自己増強型AItext-to-imageジョン・レジェンドSIGGRAPH ASIA 2020COLMAPtext-to-3Dザ・ウィークエンドADOPNVIDIA GET3DドレイクデバッギングBigGANGANverse3DMaterialGANRNNグランツーリスモSPORTAI絵師ReBeLグランツーリスモ・ソフィーUGCGTソフィーPGCVolvoFIAグランツーリスモチャンピオンシップNovelAIRival PrakDGX A100NovelAI DiffusionVTuberユービーアイソフトWebcam VTuberモーションデータ星新一賞北尾まどかHALOポーズ推定将棋メタルギアソリッドVフォートナイトメッシュ生成FSMメルセデス・ベンツRobloxMagic Leapナップサック問題Live NationEpyllion汎用言語モデルWeb3.0マシュー・ボールAIOpsムーアの法則SpotifyスマートコントラクトReplica StudioamuseChitrakarQosmoAdobe MAX 2022巡回セールスマン問題Adobe MAXジョルダン曲線メディアAdobe Research政治Galacticaクラウドゲーミングがんばれ森川君2号和田洋一リアリティ番組映像解析Stadiaジョンソン裕子セキュリティMILEsNightCafe東芝デジタルソリューションズインタラクティブ・ストリーミングLuis RuizSATLYS 映像解析AIインタラクティブ・メディアポケモン3DスキャンPFN 3D Scanシーマン人工知能研究所東京工業大学Ludo博報堂Preferred NetworksラップPFN 4D ScanSIGGRAPH 2019ArtEmisZ世代DreamUpAIラッパーシステムDeviantArtWaifu DiffusionGROVERプラスリンクス ~キミと繋がる想い~元素法典FAIRSTCNovel AIチート検出Style Transfer ConversationOpen AIオンラインカジノRCPアップルRealFlowRinna Character PlatformiPhoneCALADeep FluidsSoul Machines柿沼太一MeInGameAmeliaELSIAIGraphブレイン・コンピュータ・インタフェースバーチャルキャラクターBCIGateboxアフォーダンスLearning from VideoANIMAKPaLM-SayCan予期知能逢妻ヒカリセコムGitHub Copilotユクスキュルバーチャル警備システムCode as Policiesカント損保ジャパンCaP上原利之ドラゴンクエストエージェントアーキテクチャアッパーグラウンドコリジョンチェックPAIROCTOPATH TRAVELER西木康智OCTOPATH TRAVELER 大陸の覇者山口情報芸術センター[YCAM]アルスエレクトロニカ2019品質保証YCAMStyleRigAutodeskアンラーニング・ランゲージ逆転オセロニアBentley Systemsカイル・マクドナルドワールドシミュレーターローレン・リー・マッカーシー奥村エルネスト純いただきストリートH100鎖国[Walled Garden]​​プロジェクト齋藤精一大森田不可止COBOLSIGGRAPH ASIA 2022高橋智隆DGX H100VToonifyロボユニザナックDGX SuperPODControlVAE泉幸典仁井谷正充クラウドコンピューティング変分オートエンコーダーロボコレ2019Instant NeRFフォトグラメトリartonomous回帰型ニューラルネットワークbitGANsDeepJoinぎゅわんぶらあ自己中心派Azure Machine LearningAzure OpenAI Service意思決定モデル脱出ゲームDeepLHybrid Reward Architectureコミュニティ管理DeepL WriteウロチョロスSuper PhoenixSNSProject Malmoオンラインゲーム気候変動Project PaidiaシンギュラリティProject Lookoutマックス・プランク気象研究所レイ・カーツワイルWatch Forビョルン・スティーブンスヴァーナー・ヴィンジ気象モデルRunway ResearchLEFT ALIVE気象シミュレーションMake-A-Video長谷川誠ジミ・ヘンドリックス環境問題PhenakiBaby Xカート・コバーンエコロジーDreamixロバート・ダウニー・Jr.エイミー・ワインハウスSDGsText-to-ImageモデルYouTubeダフト・パンクメモリスタ音声生成AIGlenn MarshallScenarioThe Age of A.I.Story2Hallucination音声変換LatitudeレコメンデーションJukeboxAIピカソVeap JapanAI素材.comEAPneoAISIFT福井千春DreamIconDCGAN医療mignMOBADANNCEメンタルケアstudiffuse人事ハーバード大学Edgar HandyAndreessen Horowitz研修デューク大学AIQVE ONEQA Tech Nightmynet.aiローグライクゲーム松木晋祐東京理科大学下田純也人工音声NeurIPS 2021産業技術総合研究所桑野範久リザバーコンピューティングプレイ動画ヒップホップ対話型AIモデルソニーマーケティングControlNetサイレント映画もじぱnoteNBA環境音暗号通貨note AIアシスタントFUZZLEKetchupAlterationAI News粒子群最適化法Art Selfie進化差分法オープンワールドArt Transfer群知能下川大樹AIFAPet Portraitsウィル・ライト高津芳希P2EBlob Opera大石真史クリムトBEiTStyleGAN-NADA世界モデルDETRゲームエンジンDreamerV3SporeUnreal Engineクリティックネットワークデノイズ南カリフォルニア大学Unity for Industryアクターネットワーク画像処理DMLabSentropyGLIDEControl SuiteCPUDiscordAvatarCLIPAtari 100kSynthetic DataAtari 200MCALMYann LeCunプログラミングサム・アルトマン鈴木雅大ソースコード生成コンセプトアートGMAIシチズンデベロッパーSonanticColie WertzGitHubCohereリドリー・スコットウィザードリィMCN-AI連携モデルマジック:ザ・ギャザリング絵コンテUrzas.aiストーリーボード介護大阪大学西川善司並木幸介KikiBlenderサムライスピリッツ森寅嘉Zoetic AIゼビウスSIGGRAPH 2021ペットGPT-4ストリートファイター半導体Digital Dream LabsPaLM APITopaz Video Enhance AICozmoMakerSuiteDLSSタカラトミーSkeb山野辺一記NetEaseLOVOTDreambooth-Stable-Diffusion大里飛鳥DynamixyzMOFLINゲーム背景RomiGoogle EarthU-NetミクシィGEPPETTO AI13フェイズ構造ユニロボットStable Diffusion web UIADVユニボPoint-EXLandGatoアパレルAGIAI model手塚眞DEATH STRANDINGマルチモーダルAI ModelsEric Johnson汎用強化学習AIZMO.AIデザインMOBBY’SOculus Questコジマプロダクションロンドン芸術大学モビーディック生体情報デシマエンジンGoogle BrainダイビングインディーゲームSound Controlアウトドア写真高橋ミレイSYNTH SUPERAIスキャニング照明Maxim PeterKarl Sims自動採寸Joshua RomoffArtnome3DLOOKハイパースケープICONATESizer山崎陽斗深層強化学習ワコール立木創太松原仁スニーカー浜中雅俊UNSTREETミライ小町武田英明Newelseテスラ福井健策CheckGoodsGameGAN二次流通パックマンTesla BotNEDO中古市場Tesla AI DayWikipediaDupe Killerソサエティ5.0Sphere偽ブランドSIGGRAPH 2020バズグラフXaver 1000配信ニュースタンテキ養蜂東芝Beewiseソニー・ピクチャーズ アニメーションDIB-R倉田宜典フィンテック投資Fosters+Partners韻律射影MILIZEZaha Hadid Architects広告韻律転移三菱UFJ信託銀行

CGへの扉 Vol.28:定番手法の他分野応用、自然言語処理AI由来の画像処理AI

2021.7.16アート

CGへの扉 Vol.28:定番手法の他分野応用、自然言語処理AI由来の画像処理AI

そもそも「応用」とは何か?

あるテクノロジーを対象に「応用すべき」とか「応用の余地がある」などと言いますが、実際のところ「応用」とは何を示すのでしょう。もちろん目も覚めるような今までに無かった新テクノロジーは魅力的ですが、世の中のテクノロジーすべてがそのような新規性の塊ではありません。実用化されているさまざまなテクノロジーは「応用」の賜物であり、原理や知識を現実的な事柄、または他分野の事柄にあてはめて利用することを一般的に「応用」と呼んでいます。

○○シェアやサブスクリプション(定期購買)といった、最近の流行りで新しいと思えるサービスも、実は他分野からすれば古くからあったサービス形態かもしれません。例えば一般の仕事場に設置し、100円入れると1個好きな時に自由にお菓子を持っていける「オフィスグリコ」も「富山の薬売り」のビジネスモデルを模倣したものです。

富山の薬売りは家庭用常備薬のつまった箱を個人の家に置いていき、その時点では費用はかからず、次に来た時に使った薬の分だけの費用を徴収するという仕組みです。もちろん、人工知能研究の多くのブレイクスルーも、脳の原理や仕組みを参考にコンピュータ上のアルゴリズムにあてはめ、それらが成果となって、現在のAI研究、AI実装が広がっています。

CGへの扉 Vol.22:言葉から画像を生成、DALL-Eはクリエイティブなのか?」でも取り上げた OpenAI社の GPT-3 も、その前身となる GPT-2 は自然言語処理のモデルとして文章生成に長けた用途で注目を浴び、画像生成に応用したことで、さらに大きな注目を集めました。GPT-2 の画像応用例のひとつであるImageGPTでは画像の半分を用意すれば、残りの半分を AI が補ってくれるというわかりやすい応用例が示されたことも話題性のひとつでした。

ソースコード共有サービス GitHub が大量のソースコードから学習し、プログラミング中のソースコードに適切なコメント文とソースコードの最初の部分を書き始めると、続きの適切なソースコードを補完してくれるサービス “GitHub Copilot” を発表しました。Copilotの内部実装や学習モデルがどうなっているのかは不明ですが、Copilotの開発には GPT-2,3 の OpenAI社が関係しており、ソースコード用途に特化した、GPT-2,3の応用例とも言える、仕組みやアプローチも似通ったものではないかと予想されます。

CLIPDraw:事前学習の必要がない、文章から画像を描く仕組み

文章から画像生成 CLIPDrawの描画例

論文:https://arxiv.org/pdf/2106.14843.pdf
ソースコード:https://colab.research.google.com/github/kvfrans/clipdraw/blob/main/clipdraw.ipynb
論文の筆頭著者 Kevin Frans氏による解説:https://kvfrans.com/clipdraw-exploring-text-to-drawing-synthesis/

論文の筆頭著者 Kevin Frans氏によるストロークの繰り返しの説明動画

CLIPDrawは、クロスコンパス社、米国マサチューセッツ工科大学、東京工業大学、東京大学の共同研究チームによる、事前学習を必要とせずに文章から絵を描くAI活用のアルゴリズムです。人間は言葉による豊かな風景描写、状況説明に長けており、文章だけで構成される小説を読んで、そこで描かれている風景をとても具体的に想像したり、また逆に一度見ただけの風景や状況を言葉で人に伝えることができたりします。言葉から描画したり、描画したものを言葉で説明したり、まったく同じ、完璧な再現は無理かもしれませんが、言葉と描くものとが人間の理解する仕組みの中で、重要な役目を果たしているのは確かです。

CLIPDraw は OpenAI社から公開されているCLIPをベースとしています。CLIPでは事前の学習なしで、写真画像の説明として適切なものを単語1つまたは数語の言葉からパラメータ評価することができました。CLIPDrawでは勾配降下法を用い、最初はまったくランダムな描画から始まり、ストローク(描画の軌跡)を変化させつつ描いた画像をCLIPで評価し、評価が高いものに合わせるよう描く線のパラメータを微調整します。その描画と評価を数百回繰り返すという反復的な方法を用い、文章に書かれた内容を理解したかのような絵を描いていくことができます。

CLIPDrawで文章から描画を繰り返し調整していく流れ

CLIPDrawではさらに、形や雰囲気といった描き方に加えて「スタイル」という要素もあわせ持っています。例えば指定の言葉の中に「3Dレンダリング」などの言葉を含めると、CGで作られたワイヤーフレーム画像のような、それっぽい画像が生成されるそうです。

CLIPDrawで描かれた様々な説明文による猫。一番右は「3Dワイヤーフレームモデルの猫」

正直200回から500回も繰り返して最適化された描画も、確かに猫や馬、飛行機などとギリギリ読み取れるくらいの絵で、子どもの落書き程度にしか見えません。けれども子供の落書きも数か月、数年の成長で驚くほど精彩で正確なものに、時には芸術性が評価されるようなものにまで進化することを考えると、AIが描画の腕を磨く過程は、これから見逃せないものになるのかもしれません。

CLIPDrawを使い、さまざまな言葉を与えてAIに描かせることで、人間でさえも表現が難しい、AIが導き出した「幸福」や「不幸」といった表現しづらい概念を、どう絵で表現できるかにも興味が湧いてくることでしょう。

BEiTの登場。画像処理版のBERT

1枚の画像に複数のオブジェクトが写っている場合も、分離して示すことができる

論文:https://arxiv.org/pdf/2106.08254.pdf

BEiT(Bidirectional Encoder representation from Image Transformers)は Microsoft Researchの研究で、自然言語処理で注目を浴びているBERT(Bidirectional Encoder Representations from Transformers)の考え方を画像に応用したものです。

BERTの特徴である、自己教師あり事前学習モデルの利点を、画像処理にも活かしたのが BEiT です。機械学習の学習データとして用いられる「教師ありデータ」とは、人間が目視と手動で判別ラベルをつけたデータのことで、この種のデータを膨大に事前学習して機械学習の精度を高めます。しかしこの手法の場合人間が判別したラベルに間違いが含まれる場合があることと、正確なデータを膨大とも言える必要な量を用意することが困難なため、AIの実用においておおきな課題になっていました。

BERTを既存研究と比較した時のブレイクスルーは、自己教師学習を可能にした点です。これは言葉通り、自分自身を教師として学ぶことができる仕組みです。例えば、ある単語の次に出現する頻度の高い単語を学習するには、大量の文章データから事前にAI自身が文章の中から単語が欠けた問題と正しい文章を参照した正答を用意し、人の手を借りずとも、大量に学習していける点にあります。

これと同じ考えで、画像処理においてもわざと画像の一部を欠けさせたり、画像の解像度を落とした問題を作り、元画像を正答とすることで、画像処理においても自己教師あり事前学習モデルを実現させることができると考えられます。ところが定型文や言い回しがある程度決まっている文章とは異なり、画像の場合は一部が欠けていても、その穴を埋める画像は無限に存在することが考えられます。

BEiTが行なったアプローチは MIM(Masked Image Modeling)と呼ばれる事前学習の方法です。これは学習対象となる画像を画素ごとに16×16ピクセルサイズのグリッド分割したものと、画像の特徴点を数字(Visual Token)で表現するTokenizerと数字(Visual Token)から画像に戻すDecoderを組み合わせます。画像の一部がランダムに欠けたものから元のVisual Tokenが得られるよう学習を繰り返すことで画像処理においても自己教師あり事前学習モデルを実現しています。ちなみに論文によるとVisual Tokenの生成手法は、OpenAIのDALL-E で使われている手法が応用しているもよう。

Facebook DETR 自然言語処理の手法を応用した物体検出

Facebook DETRによって検知された物体。100%の精度で象とシマウマが検出されている

論文:https://arxiv.org/pdf/2005.12872.pdf
Facebook AI の紹介ページ:https://ai.facebook.com/blog/end-to-end-object-detection-with-transformers/
ソースコード:https://github.com/facebookresearch/detr
解説動画:https://www.youtube.com/watch?v=T35ba_VXkMY

Facebook のAI研究チームが発表した2020年5月に発表した物体検出モデルDETRも、自然言語処理の方法を応用したものです。DETRは従来手法よりも高速化された手法で、ある物体の近くには、一緒にある物体が存在する可能性が高いといった文脈を理解して物体検知するのも特徴です。自然言語処理(NLP:Natural Language Processing)の世界のブレイクスルーであった Transformer モデルを物体検出に応用した事例です。

従来型の手法に比べ、Transformerの利点の一つに並列処理が可能な点があります。けれども画像検出にまつわる処理も逐次型のため、この Transformer の利点が活かしにくい分野ではありました。従来型の画像検出の手順としては、画像から物体を検出し、その後に何が写っているのかを分類し段階的に判別する必要がありました。

DETRでは画像から物体を場所と大きさを検知するとともに、画像に写っている物体同士の関係性を利用し、つながりのあるデータ群だと考えることによって Transformer の並列処理の利点を享受できるようになりました。例えばある写真に猫が写っているとすると、もうひとつ同じくらいの物体が存在すれば、それがもう一匹の猫である可能性が高く、猫よりも大きな物体が存在すれば、それは飼い主である人間が写っている可能性が高いといった写真ならではの関係性です。

DERTの推論の流れ

まずは元となる画像を CNN(Convolutional Neural Network) に入力します。これによって特徴マップが生成されます。そこで生成された特徴マップを Transformer encoder-decoder に入力します。そうすると画像に写っているオブジェクトの個数、位置、サイズといった情報が得られます。得られた結果から “no object” となる物体として認識されなかったものを除外すると、画像全体の物体検出が完了します。

これからのAIの応用と成熟

元任天堂のゲーム開発者、横井軍平氏の著書『横井軍平ゲーム館』には「枯れた技術の水平思考」という考え方について書かれています。これは、すでに広く使われ、メリットやデメリットが明らかになっている技術をさまざまな分野に応用することで、今までになかったような使い道を生み出し、安価で安定した最大限の成果を得るという考え方です。決して古い技術を誉めたたえようという意味ではありません。

エンジニア気質が強い人や、研究志向の人であれば、常に最新技術を追い求め、独自性やオリジナリティを重視する状況もあるかもしれません。けれども今回紹介したテクノロジーや、人工知能の世界で話題になるテクノロジーは、何も目新しいものばかりではなく、旧来からあるテクノロジーを応用し、圧倒的な物量で驚くべき応用と成果を導き出していることが見受けられます。

また既存技術の組み合わせによって、あらたな応用例や現実的な用途に役立つ道筋を見出しているものも注目されています。そう考えると、これから話題になるであろう人工知能を応用するためのヒントは、そこここに転がっているのだと考えられるかもしれません。

本連載の今後の予定:「CGへの扉」では、単なるAIの話題とは少し異なり、CG/VFX, アートの文脈から話題を切り取り紹介していきます。映像制作の現場におけるAI活用や、AIで価値が高まった先進的なツール、これからの可能性を感じさせるような話題、テクノロジーの話題にご期待ください。何か取り上げて欲しいテーマやご希望などがございましたら、ぜひ編集部までお知らせください。

CGへの扉

Vol.27:眼に追いつけ追い越せ? カメラは機械学習により進化

Vol.26:アートを加速させるAIの役割 #GTC2021 レポート

Vol.25:変幻自在の顔も実は人工知能

Vol.24:自然現象もすべて人工知能で再現する時代

Vol.23:AIで人の眼に進化するカメラ

Vol.22:言葉から画像を生成、DALL-Eはクリエイティブなのか?

Vol.21:人工知能+3DCGの最新論文をまとめて紹介 #SIGGRAPHAsia2020

Vol.20:Adobeと人工知能の将来を見極める #AdobeMAX2020

Vol.19:コミュニケーションツールの新境地「NVIDIA MAXINE」

Vol.18:SIGGRAPH2020レポート 映像制作の現場で活躍する人工知能

Vol.17:描画を進化させるTensorFlow Graphicsの真価

Vol.16:バーチャル開催SIGGRAPH論文を先取り

≫≫すべてのバックナンバーはこちらから

Contributor:安藤幸央

RELATED ARTICLE関連記事

CGへの扉 Vol.15:撮影に革新をもたらすAIによる照明

2020.6.12アート

CGへの扉 Vol.15:撮影に革新をもたらすAIによる照明

CGへの扉 Vol.13:AIのクリエイティブとクリエイティビティ再考

2020.4.23アート

CGへの扉 Vol.13:AIのクリエイティブとクリエイティビティ再考

【春期GTC2023】クリエイターコミュニティを支えるNVIDIAのアバターAI技術

2023.4.25アート

【春期GTC2023】クリエイターコミュニティを支えるNVIDIAのアバターAI...

RANKING注目の記事はこちら