モリカトロン株式会社運営「エンターテインメント×AI」の最新情報をお届けするサイトです。

TAG LIST
CGCGへの扉安藤幸央機械学習月刊エンタメAIニュースディープラーニング河合律子生成AI吉本幸記OpenAIGAN音楽NVIDIAGoogle三宅陽一郎強化学習ニューラルネットワークStable DiffusionChatGPTグーグル森川幸人シナリオDeepMindQA大規模言語モデル人工知能学会GPT-3自然言語処理マイクロソフトFacebook大内孝子AIと倫理映画著作権アート倫理キャラクターAI敵対的生成ネットワークルールベースLLMSIGGRAPHモリカトロンゲームプレイAIスクウェア・エニックスモリカトロンAIラボインタビュー画像生成NPCNFTプロシージャルMidjourneyデバッグMinecraftDALL-E2StyleGAN遺伝的アルゴリズム画像生成AIロボットファッション音楽生成AI自動生成VFXAdobeテストプレイメタAIアニメーションテキスト画像生成深層学習CEDEC2019ディープフェイクデジタルツインメタバースVR小説ボードゲームDALL-ECLIPビヘイビア・ツリーマンガCEDEC2021CEDEC2020ゲームAI不完全情報ゲームナビゲーションAI畳み込みニューラルネットワークGDC 2021JSAI2022バーチャルヒューマン作曲MicrosoftNVIDIA OmniverseGDC 2019マルチエージェントCEDEC2022MetaマインクラフトAIアート3DCGStability AIメタデジタルヒューマン懐ゲーから辿るゲームAI技術史toioジェネレーティブAIスポーツエージェントプロンプト栗原聡手塚治虫汎用人工知能CNNNeRFDALL-E 3BERTロボティクスUnityOmniverseJSAI2023鴫原盛之HTN階層型タスクネットワークソニーGPT-4マルチモーダルJSAI2020GTC20233DTensorFlowインタビューブロックチェーンイベントレポート対話型エージェントAmazonメディアアートDQN水野勇太アバターUbisoftGenvid TechnologiesガイスターStyleGAN2ARELSIGTC2022教育SIGGRAPH ASIANetflixJSAI2021東京大学はこだて未来大学Bard研究シムピープルMCS-AI動的連携モデルRed RamモーションキャプチャーTEZUKA2020CEDEC2023テキスト生成インディーゲームElectronic Arts音声合成マーケティングメタデータGDC Summerイーロン・マスクStable Diffusion XLCMMicrosoft Azureアストロノーカキャリア模倣学習動画生成AIeスポーツスタンフォード大学アーケードゲームテニスサイバーエージェントトレーディングカード音声認識類家利直eSportsBLUE PROTOCOLシーマンaibo合成音声チャットボットブラック・ジャックEpic GamesAWS徳井直生クラウド斎藤由多加AlphaZeroTransformerGPT-2rinnaAIりんなカメラ環世界中島秀之PaLM哲学ベリサーブPlayable!GPT-3.5ハリウッド理化学研究所Gen-1SFテキスト画像生成AI松尾豊データマイニング現代アートDARPAドローンシムシティゲームエンジンImagenZorkバイアスマーダーミステリーASBSぱいどんアドベンチャーゲームAI美空ひばりAGI手塚眞バンダイナムコ研究所スパーシャルAIELYZANEDOFSM-DNNLEFT 4 DEAD通しプレイ論文OpenAI Five本間翔太馬淵浩希Cygames森山和道Audio2Faceピクサープラチナエッグイーサリアム効果音ボエダ・ゴティエビッグデータ中嶋謙互Amadeus Codeデータ分析MILENVIDIA ACEナラティブNVIDIA RivaOmniverse ReplicatorWCCFレコメンドシステムNVIDIA DRIVE SimWORLD CLUB Champion FootballNVIDIA Isaac Simセガ柏田知大軍事田邊雅彦トレカMax CooperGPTDisneyFireflyPyTorchChatGPT4眞鍋和子バンダイナムコスタジオAI Frog Interactive新清士大澤博隆SFプロトタイピング齊藤陽介お知らせMagic Leap OneTencentモリカトロン開発者インタビュー宮本茂則バスケットボールGeminiTikToktext-to-imageサルでもわかる人工知能text-to-3DVAEDreamFusionTEZUKA2023リップシンキングRNNUbisoft La Forge自動運転車ワークショップ知識表現ウォッチドッグス レギオンVTuberIGDA立教大学秋期GTC2022市場分析フォートナイトどうぶつしょうぎRobloxジェイ・コウガミ音楽ストリーミングMITAIロボ「迷キュー」に挑戦野々下裕子Adobe MAXマシンラーニング村井源5GMuZeroRival Peakpixivオムロン サイニックエックスGPTs電気通信大学対話エンジン稲葉通将ポケモン3Dスキャン橋本敦史リトル・コンピュータ・ピープルCodexシーマン人工知能研究所コンピューティショナル・フォトグラフィーPreferred Networksゴブレット・ゴブラーズ絵画3D Gaussian SplattingMicrosoft DesignerアップルイラストシミュレーションSoul Machines柿沼太一完全情報ゲームバーチャルキャラクター坂本洋典釜屋憲彦GitHub CopilotウェイポイントLLaMAパス検索対談藤澤仁生物学GTC 2022xAIApple Vision Pro画像認識SiemensストライキStyleCLIPDeNA長谷洋平クラウドコンピューティングmasumi toyotaIBM宮路洋一OpenSeaGDC 2022SNSTextWorldSoraEarth-2BingMagentaYouTube音声生成AIELYZA PencilScenarioSIGGRAPH2023AIピカソGTC2021AI素材.comCycleGANテンセントAndreessen HorowitzAIQVE ONENetHackキャラクターモーションControlNet音源分離NBAフェイクニュースユニバーサルミュージックRPG法律Web3SIGGRAPH 2022世界モデルレベルデザインDreamerV3AIボイスアクターUnreal Engine南カリフォルニア大学NVIDIA CanvasGPUALife人工生命オルタナティヴ・マシンサウンドスケープLaMDATRPGマジック:ザ・ギャザリングAI Dungeonゲーム背景アパレル不気味の谷ナビゲーションメッシュデザイン高橋ミレイ深層強化学習松原仁松井俊浩武田英明フルコトELYZA DIGEST建築広告西成活裕ハイブリッドアーキテクチャApex LegendsELIZA群衆マネジメントライブポートレイトNinjaコンピュータRPGライブビジネスWonder StudioAdobe Max 2023アップルタウン物語新型コロナ土木MindAgentKELDIC周済涛BIMBing Chatメロディ言語清田陽司インフラBing Image CreatorゲームTENTUPLAYサイバネティックスMARVEL Future FightAstro人工知能史Amazon BedrockAssistant with BardタイムラプスEgo4DAI哲学マップThe Arcadeバスキア星新一X.AISearch Generative Experience日経イノベーション・ラボStyleGAN-XLX Corp.Dynalang敵対的強化学習StyleGAN3TwitterVLE-CE階層型強化学習GOSU Data LabGANimatorXホールディングスWANNGOSU Voice AssistantVoLux-GANMagiAI Act竹内将SenpAI.GGProjected GANEUMobalyticsSelf-Distilled StyleGANSDXLArs ElectronicaニューラルレンダリングRTFKTAI規制岡島学AWS SagemakerPLATONIKE欧州委員会映像セリア・ホデント形態素解析frame.ioClone X欧州議会UXAWS LambdaFoodly村上隆欧州理事会誤字検出MusicLM認知科学中川友紀子Digital MarkAudioLMゲームデザインSentencePieceアールティSnapchatMusicCapsLUMINOUS ENGINEクリエイターコミュニティAudioCraftLuminous ProductionsBlenderBot 3バーチャルペットパターン・ランゲージ竹村也哉Meta AINVIDIA NeMo ServiceMubertちょまどマーク・ザッカーバーグヴァネッサ・ローザMubert RenderGOAPWACULVanessa A RosaGen-2Adobe MAX 2021陶芸Runway AI Film Festival自動翻訳Play.htPreViz音声AIAIライティングLiDARCharacter-LLMOmniverse AvatarAIのべりすとPolycam復旦大学FPSQuillBotdeforumChat-Haruhi-Suzumiyaマルコフ決定過程NVIDIA MegatronCopysmith涼宮ハルヒNVIDIA MerlinJasperハーベストEmu VideoNVIDIA MetropolisForGamesNianticパラメータ設計ゲームマーケットペリドットバランス調整岡野翔太Dream Track協調フィルタリング郡山喜彦Music AI Tools人狼知能テキサス大学ジェフリー・ヒントンLyriaGoogle I/O 2023Yahoo!知恵袋AlphaDogfight TrialsAI Messenger VoicebotGoogle I/OインタラクティブプロンプトAIエージェントシミュレーションOpenAI Codex武蔵野美術大学慶應義塾大学StarCraft IIHyperStyleBingAI石渡正人Future of Life InstituteRendering with Style手塚プロダクションIntel林海象LAIKADisneyリサーチヴィトゲンシュタインPhotoshop古川善規RotomationGauGAN論理哲学論考Lightroom大規模再構成モデルGauGAN2京都芸術大学CanvaLRMドラゴンクエストライバルズ画像言語表現モデルObjaverse不確定ゲームSIGGRAPH ASIA 2021PromptBaseBOOTHMVImgNetDota 2モンテカルロ木探索ディズニーリサーチpixivFANBOXOne-2-3-45Mitsuba2バンダイナムコネクサス虎の穴3DガウシアンスプラッティングソーシャルゲームEmbeddingワイツマン科学研究所ユーザーレビューFantiaワンショット3D生成技術GTC2020CG衣装mimicとらのあな高橋力斗NVIDIA MAXINEVRファッションBaidu集英社FGDC淡路滋ビデオ会議ArtflowERNIE-ViLG少年ジャンプ+Future Game Development ConferenceグリムノーツEponym古文書ComicCopilot佐々木瞬ゴティエ・ボエダ音声クローニング凸版印刷コミコパヒストリアGautier Boeda階層的クラスタリングGopherAI-OCRゲームマスター画像判定Inowrld AIJuliusSIE鑑定ラベル付けMODAniqueTPRGOxia PalusGhostwriter中村太一バーチャル・ヒューマン・エージェントtoio SDK for UnityArt RecognitionSkyrimエグゼリオクーガー田中章愛実況パワフルサッカースカイリムCopilot石井敦銭起揚NHC 2021桃太郎電鉄RPGツクールMZComfyUI茂谷保伯池田利夫桃鉄ChatGPT_APIMZserial experiments lainGDMC新刊案内パワサカダンジョンズ&ドラゴンズAI lainマーベル・シネマティック・ユニバースコナミデジタルエンタテインメントOracle RPGPCG成沢理恵MITメディアラボMCU岩倉宏介深津貴之PCGRLアベンジャーズPPOxVASynthDungeons&Dragonsマジック・リープDigital DomainMachine Learning Project CanvasLaser-NVビートルズMagendaMasquerade2.0国立情報学研究所ザ・ビートルズ: Get BackノンファンジブルトークンDDSPフェイシャルキャプチャー石川冬樹MERFDemucsサッカースパコンAlibaba音楽編集ソフト里井大輝KaggleスーパーコンピュータVQRFAdobe Audition山田暉松岡 聡nvdiffreciZotopeAssassin’s Creed OriginsAI会話ジェネレーターTSUBAME 1.0NeRFMeshingRX10Sea of ThievesTSUBAME 2.0LERFMoisesGEMS COMPANYmonoAI technologyLSTMABCIマスタリングモリカトロンAIソリューション富岳レベルファイブ初音ミクOculusコード生成AISociety 5.0リアム・ギャラガーSuno AI転移学習テストAlphaCode夏の電脳甲子園グライムスKaKa CreationBaldur's Gate 3Codeforces座談会BoomyVOICEVOXCandy Crush Saga自己増強型AIジョン・レジェンドGenie AISIGGRAPH ASIA 2020COLMAPザ・ウィークエンドSIGGRAPH Asia 2023ADOPNVIDIA GET3DドレイクC·ASEデバッギングBigGANGANverse3DFLAREMaterialGANダンスグランツーリスモSPORTAI絵師エッジワークスMagicAnimateReBeLグランツーリスモ・ソフィーUGC日本音楽作家団体協議会Animate AnyoneGTソフィーPGCFCAインテリジェントコンピュータ研究所VolvoFIAグランツーリスモチャンピオンシップVoiceboxアリババNovelAIさくらインターネットDreaMovingRival PrakDGX A100NovelAI DiffusionVISCUITぷよぷよScratchユービーアイソフトWebcam VTuberモーションデータスクラッチ星新一賞大阪公立大学ビスケット北尾まどかHALOポーズ推定TCGプログラミング教育将棋メタルギアソリッドVメッシュ生成KLabFSMメルセデス・ベンツQRコードVALL-EMagic Leap囲碁Deepdub.aiナップサック問題Live NationEpyllionデンソーAUDIOGEN汎用言語モデルWeb3.0マシュー・ボールデンソーウェーブEvoke MusicAIOpsムーアの法則原昌宏AutoFoleySpotifyスマートコントラクト日本機械学会Colourlab.AiReplica Studioロボティクス・メカトロニクス講演会ディズニーamuseChitrakarQosmoAdobe MAX 2022トヨタ自動車Largo.ai巡回セールスマン問題かんばん方式Cinelyticジョルダン曲線メディアAdobe ResearchTaskade政治Galacticaプロット生成Pika.artクラウドゲーミングがんばれ森川君2号AI Filmmaking Assistant和田洋一リアリティ番組映像解析FastGANStadiaジョンソン裕子セキュリティ4コママンガAI ScreenwriterMILEsNightCafe東芝デジタルソリューションズ芥川賞インタラクティブ・ストリーミングLuis RuizSATLYS 映像解析AI文学インタラクティブ・メディア恋愛PFN 3D ScanElevenLabsタップル東京工業大学HeyGenAbema TVLudo博報堂After EffectsNECラップPFN 4D Scan絵本木村屋SIGGRAPH 2019ArtEmisZ世代DreamUp出版GPT StoreAIラッパーシステムDeviantArtAmmaar Reshi生成AIチェッカーWaifu DiffusionStoriesユーザーローカルGROVERプラスリンクス ~キミと繋がる想い~元素法典StoryBird九段理江FAIRSTCNovel AIVersed東京都同情塔チート検出Style Transfer ConversationOpen AIProlificDreamerオンラインカジノRCPUnity Sentis4Dオブジェクト生成モデルRealFlowRinna Character PlatformUnity MuseAlign Your GaussiansiPhoneCALACaleb WardAYGDeep Fluids宮田龍MAV3DMeInGameAmelia清河幸子ファーウェイAIGraphブレイン・コンピュータ・インタフェース西中美和4D Gaussian SplattingBCIGateboxアフォーダンス安野貴博4D-GSLearning from VideoANIMAKPaLM-SayCan斧田小夜Glaze予期知能逢妻ヒカリ宮本道人WebGlazeセコムLLaMA 2NightShadeユクスキュルバーチャル警備システムCode as PoliciesSpawningカント損保ジャパンCaPHugging FaceHave I Been Trained?CM3leonFortnite上原利之Stable DoodleUnreal Editor For FortniteドラゴンクエストエージェントアーキテクチャアッパーグラウンドコリジョンチェックT2I-AdapterXRPAIROCTOPATH TRAVELER西木康智VolumetricsOCTOPATH TRAVELER 大陸の覇者山口情報芸術センター[YCAM]AIワールドジェネレーターアルスエレクトロニカ2019品質保証YCAM日本マネジメント総合研究所Rosebud AI GamemakerStyleRigAutodeskアンラーニング・ランゲージVoyagerLayer逆転オセロニアBentley Systemsカイル・マクドナルドLily Hughes-RobinsonCharisma.aiワールドシミュレーターローレン・リー・マッカーシーColossal Cave AdventureGDC 2024奥村エルネスト純いただきストリートH100鎖国[Walled Garden]​​プロジェクトAdventureGPT調査齋藤精一大森田不可止COBOLSIGGRAPH ASIA 2022リリー・ヒューズ=ロビンソンMeta Quest高橋智隆DGX H100VToonifyBabyAGIIPロボユニザナックDGX SuperPODControlVAEGPT-3.5 Turbo泉幸典仁井谷正充変分オートエンコーダーカーリング強いAIロボコレ2019Instant NeRFフォトグラメトリウィンブルドン弱いAIartonomous回帰型ニューラルネットワークbitGANsDeepJoin戦術分析ぎゅわんぶらあ自己中心派Azure Machine LearningAzure OpenAI Serviceパフォーマンス測定Lumiere意思決定モデル脱出ゲームDeepLIoTUNetHybrid Reward Architectureコミュニティ管理DeepL WriteProFitXImageFXウロチョロスSuper PhoenixWatsonxMusicFXProject MalmoオンラインゲームAthleticaTextFX気候変動コーチングProject Paidiaシンギュラリティ北見工業大学KeyframerProject Lookoutマックス・プランク気象研究所レイ・カーツワイル北見カーリングホールAppleWatch Forビョルン・スティーブンスヴァーナー・ヴィンジ画像解析Gemini 1.5気象モデルRunway ResearchじりつくんAI StudioLEFT ALIVE気象シミュレーションMake-A-VideoNTT SportictVertex AI長谷川誠ジミ・ヘンドリックス環境問題PhenakiAIカメラChat with RTXBaby Xカート・コバーンエコロジーDreamixSTADIUM TUBESlackロバート・ダウニー・Jr.エイミー・ワインハウスSDGsText-to-ImageモデルPixelllot S3Slack AIソフトバンクPokémon Battle Scopeダフト・パンクメモリスタAIスマートコーチポケットモンスターGlenn MarshallkanaeruThe Age of A.I.Story2Hallucination音声変換Latitude占いレコメンデーションJukeboxDreambooth行動ロジック生成AIVeap Japanヤン・ルカンConvaiEAPneoAIPerfusionNTTドコモSIFT福井千春DreamIconニューラル物理学EmemeDCGAN医療mign毛髪GenieMOBADANNCEメンタルケアstudiffuse荒牧英治汎用AIエージェント人事ハーバード大学Edgar Handy中ザワヒデキAIファッションウィーク研修デューク大学大屋雄裕インフルエンサーQA Tech Night中川裕志Grok-1mynet.aiローグライクゲーム松木晋祐Adreeseen HorowitzMixture-of-Experts東京理科大学下田純也NVIDIA Avatar Cloud EngineMoE人工音声NeurIPS 2021産業技術総合研究所桑野範久Replica StudiosClaude 3リザバーコンピューティングSmart NPCsClaude 3 Haikuプレイ動画ヒップホップ対話型AIモデルRoblox StudioClaude 3 SonnetソニーマーケティングPromethean AIClaude 3 Opusサイレント映画もじぱnote森永乳業環境音暗号通貨note AIアシスタントMusiioC2PAFUZZLEKetchupEndelゲーミフィケーションAlterationAI NewsTomo Kihara粒子群最適化法Art SelfiePlayfool進化差分法オープンワールドArt TransferSonar遊び群知能下川大樹AIFAPet PortraitsSonar+Dウィル・ライト高津芳希P2EBlob Opera大石真史クリムトDolby AtmosBEiTStyleGAN-NADASonar Music FestivalDETRライゾマティクスSporeクリティックネットワーク真鍋大度デノイズUnity for Industryアクターネットワーク花井裕也画像処理DMLabRitchie HawtinSentropyGLIDEControl SuiteErica SynthCPUDiscordAvatarCLIPAtari 100kUfuk Barış MutluSynthetic DataAtari 200MJapanese InstructBLIP AlphaCALMYann LeCun日本新聞協会プログラミングサム・アルトマン鈴木雅大AIいらすとやソースコード生成コンセプトアートAI PicassoGMAIシチズンデベロッパーSonanticColie WertzEmposyGitHubCohereリドリー・スコットAIタレントウィザードリィMCN-AI連携モデル絵コンテAIタレントエージェンシーUrzas.aiストーリーボードmodi.ai介護大阪大学BitSummit西川善司並木幸介KikiBlenderBitSummit Let’s Go!!サムライスピリッツ森寅嘉Zoetic AIゼビウスSIGGRAPH 2021ペットストリートファイター半導体Digital Dream LabsPaLM APIデジタルレプリカTopaz Video Enhance AICozmoMakerSuiteGOT7DLSSタカラトミーSkebsynthesia山野辺一記NetEaseLOVOTDreambooth-Stable-DiffusionHumanRF大里飛鳥DynamixyzMOFLINActors-HQRomiGoogle EarthSAG-AFTRAU-NetミクシィGEPPETTO AIWGA13フェイズ構造ユニロボットStable Diffusion web UIチャーリー・ブルッカーADVユニボPoint-EXLandGato岡野原大輔AI model自己教師あり学習DEATH STRANDINGAI ModelsIn-Context Learning(ICL)Eric Johnson汎用強化学習AIZMO.AILoRAMOBBY’SファインチューニングOculus Questコジマプロダクションロンドン芸術大学モビーディックグランツーリスモ生体情報デシマエンジンGoogle Brainダイビング量子コンピュータSound Controlアウトドアqubit写真SYNTH SUPERAIスキャニングIBM Quantum System 2照明Maxim PeterKarl Sims自動採寸北野宏明Joshua RomoffArtnome3DLOOKダリオ・ヒルハイパースケープICONATESizerジェン・スン・フアン山崎陽斗ワコールHuggingFace立木創太スニーカーStable Audio浜中雅俊UNSTREET宗教ミライ小町Newelse仏教テスラ福井健策CheckGoodsコカ・コーラGameGAN二次流通食品パックマンTesla Bot中古市場Coca‑Cola Y3000 Zero SugarTesla AI DayWikipediaDupe KillerCopilot Copyright Commitmentソサエティ5.0Sphere偽ブランドテラバースSIGGRAPH 2020バズグラフXaver 1000配信京都大学ニュースタンテキ養蜂立福寛東芝Beewiseソニー・ピクチャーズ アニメーション音声解析DIB-R倉田宜典フィンテック感情分析投資Fosters+Partners周 済涛韻律射影MILIZEZaha Hadid Architectsステートマシン韻律転移三菱UFJ信託銀行ディープニューラルネットワーク

CGへの扉 Vol.28:定番手法の他分野応用、自然言語処理AI由来の画像処理AI

2021.7.16アート

CGへの扉 Vol.28:定番手法の他分野応用、自然言語処理AI由来の画像処理AI

そもそも「応用」とは何か?

あるテクノロジーを対象に「応用すべき」とか「応用の余地がある」などと言いますが、実際のところ「応用」とは何を示すのでしょう。もちろん目も覚めるような今までに無かった新テクノロジーは魅力的ですが、世の中のテクノロジーすべてがそのような新規性の塊ではありません。実用化されているさまざまなテクノロジーは「応用」の賜物であり、原理や知識を現実的な事柄、または他分野の事柄にあてはめて利用することを一般的に「応用」と呼んでいます。

○○シェアやサブスクリプション(定期購買)といった、最近の流行りで新しいと思えるサービスも、実は他分野からすれば古くからあったサービス形態かもしれません。例えば一般の仕事場に設置し、100円入れると1個好きな時に自由にお菓子を持っていける「オフィスグリコ」も「富山の薬売り」のビジネスモデルを模倣したものです。

富山の薬売りは家庭用常備薬のつまった箱を個人の家に置いていき、その時点では費用はかからず、次に来た時に使った薬の分だけの費用を徴収するという仕組みです。もちろん、人工知能研究の多くのブレイクスルーも、脳の原理や仕組みを参考にコンピュータ上のアルゴリズムにあてはめ、それらが成果となって、現在のAI研究、AI実装が広がっています。

CGへの扉 Vol.22:言葉から画像を生成、DALL-Eはクリエイティブなのか?」でも取り上げた OpenAI社の GPT-3 も、その前身となる GPT-2 は自然言語処理のモデルとして文章生成に長けた用途で注目を浴び、画像生成に応用したことで、さらに大きな注目を集めました。GPT-2 の画像応用例のひとつであるImageGPTでは画像の半分を用意すれば、残りの半分を AI が補ってくれるというわかりやすい応用例が示されたことも話題性のひとつでした。

ソースコード共有サービス GitHub が大量のソースコードから学習し、プログラミング中のソースコードに適切なコメント文とソースコードの最初の部分を書き始めると、続きの適切なソースコードを補完してくれるサービス “GitHub Copilot” を発表しました。Copilotの内部実装や学習モデルがどうなっているのかは不明ですが、Copilotの開発には GPT-2,3 の OpenAI社が関係しており、ソースコード用途に特化した、GPT-2,3の応用例とも言える、仕組みやアプローチも似通ったものではないかと予想されます。

CLIPDraw:事前学習の必要がない、文章から画像を描く仕組み

文章から画像生成 CLIPDrawの描画例

論文:https://arxiv.org/pdf/2106.14843.pdf
ソースコード:https://colab.research.google.com/github/kvfrans/clipdraw/blob/main/clipdraw.ipynb
論文の筆頭著者 Kevin Frans氏による解説:https://kvfrans.com/clipdraw-exploring-text-to-drawing-synthesis/

論文の筆頭著者 Kevin Frans氏によるストロークの繰り返しの説明動画

CLIPDrawは、クロスコンパス社、米国マサチューセッツ工科大学、東京工業大学、東京大学の共同研究チームによる、事前学習を必要とせずに文章から絵を描くAI活用のアルゴリズムです。人間は言葉による豊かな風景描写、状況説明に長けており、文章だけで構成される小説を読んで、そこで描かれている風景をとても具体的に想像したり、また逆に一度見ただけの風景や状況を言葉で人に伝えることができたりします。言葉から描画したり、描画したものを言葉で説明したり、まったく同じ、完璧な再現は無理かもしれませんが、言葉と描くものとが人間の理解する仕組みの中で、重要な役目を果たしているのは確かです。

CLIPDraw は OpenAI社から公開されているCLIPをベースとしています。CLIPでは事前の学習なしで、写真画像の説明として適切なものを単語1つまたは数語の言葉からパラメータ評価することができました。CLIPDrawでは勾配降下法を用い、最初はまったくランダムな描画から始まり、ストローク(描画の軌跡)を変化させつつ描いた画像をCLIPで評価し、評価が高いものに合わせるよう描く線のパラメータを微調整します。その描画と評価を数百回繰り返すという反復的な方法を用い、文章に書かれた内容を理解したかのような絵を描いていくことができます。

CLIPDrawで文章から描画を繰り返し調整していく流れ

CLIPDrawではさらに、形や雰囲気といった描き方に加えて「スタイル」という要素もあわせ持っています。例えば指定の言葉の中に「3Dレンダリング」などの言葉を含めると、CGで作られたワイヤーフレーム画像のような、それっぽい画像が生成されるそうです。

CLIPDrawで描かれた様々な説明文による猫。一番右は「3Dワイヤーフレームモデルの猫」

正直200回から500回も繰り返して最適化された描画も、確かに猫や馬、飛行機などとギリギリ読み取れるくらいの絵で、子どもの落書き程度にしか見えません。けれども子供の落書きも数か月、数年の成長で驚くほど精彩で正確なものに、時には芸術性が評価されるようなものにまで進化することを考えると、AIが描画の腕を磨く過程は、これから見逃せないものになるのかもしれません。

CLIPDrawを使い、さまざまな言葉を与えてAIに描かせることで、人間でさえも表現が難しい、AIが導き出した「幸福」や「不幸」といった表現しづらい概念を、どう絵で表現できるかにも興味が湧いてくることでしょう。

BEiTの登場。画像処理版のBERT

1枚の画像に複数のオブジェクトが写っている場合も、分離して示すことができる

論文:https://arxiv.org/pdf/2106.08254.pdf

BEiT(Bidirectional Encoder representation from Image Transformers)は Microsoft Researchの研究で、自然言語処理で注目を浴びているBERT(Bidirectional Encoder Representations from Transformers)の考え方を画像に応用したものです。

BERTの特徴である、自己教師あり事前学習モデルの利点を、画像処理にも活かしたのが BEiT です。機械学習の学習データとして用いられる「教師ありデータ」とは、人間が目視と手動で判別ラベルをつけたデータのことで、この種のデータを膨大に事前学習して機械学習の精度を高めます。しかしこの手法の場合人間が判別したラベルに間違いが含まれる場合があることと、正確なデータを膨大とも言える必要な量を用意することが困難なため、AIの実用においておおきな課題になっていました。

BERTを既存研究と比較した時のブレイクスルーは、自己教師学習を可能にした点です。これは言葉通り、自分自身を教師として学ぶことができる仕組みです。例えば、ある単語の次に出現する頻度の高い単語を学習するには、大量の文章データから事前にAI自身が文章の中から単語が欠けた問題と正しい文章を参照した正答を用意し、人の手を借りずとも、大量に学習していける点にあります。

これと同じ考えで、画像処理においてもわざと画像の一部を欠けさせたり、画像の解像度を落とした問題を作り、元画像を正答とすることで、画像処理においても自己教師あり事前学習モデルを実現させることができると考えられます。ところが定型文や言い回しがある程度決まっている文章とは異なり、画像の場合は一部が欠けていても、その穴を埋める画像は無限に存在することが考えられます。

BEiTが行なったアプローチは MIM(Masked Image Modeling)と呼ばれる事前学習の方法です。これは学習対象となる画像を画素ごとに16×16ピクセルサイズのグリッド分割したものと、画像の特徴点を数字(Visual Token)で表現するTokenizerと数字(Visual Token)から画像に戻すDecoderを組み合わせます。画像の一部がランダムに欠けたものから元のVisual Tokenが得られるよう学習を繰り返すことで画像処理においても自己教師あり事前学習モデルを実現しています。ちなみに論文によるとVisual Tokenの生成手法は、OpenAIのDALL-E で使われている手法が応用しているもよう。

Facebook DETR 自然言語処理の手法を応用した物体検出

Facebook DETRによって検知された物体。100%の精度で象とシマウマが検出されている

論文:https://arxiv.org/pdf/2005.12872.pdf
Facebook AI の紹介ページ:https://ai.facebook.com/blog/end-to-end-object-detection-with-transformers/
ソースコード:https://github.com/facebookresearch/detr
解説動画:https://www.youtube.com/watch?v=T35ba_VXkMY

Facebook のAI研究チームが発表した2020年5月に発表した物体検出モデルDETRも、自然言語処理の方法を応用したものです。DETRは従来手法よりも高速化された手法で、ある物体の近くには、一緒にある物体が存在する可能性が高いといった文脈を理解して物体検知するのも特徴です。自然言語処理(NLP:Natural Language Processing)の世界のブレイクスルーであった Transformer モデルを物体検出に応用した事例です。

従来型の手法に比べ、Transformerの利点の一つに並列処理が可能な点があります。けれども画像検出にまつわる処理も逐次型のため、この Transformer の利点が活かしにくい分野ではありました。従来型の画像検出の手順としては、画像から物体を検出し、その後に何が写っているのかを分類し段階的に判別する必要がありました。

DETRでは画像から物体を場所と大きさを検知するとともに、画像に写っている物体同士の関係性を利用し、つながりのあるデータ群だと考えることによって Transformer の並列処理の利点を享受できるようになりました。例えばある写真に猫が写っているとすると、もうひとつ同じくらいの物体が存在すれば、それがもう一匹の猫である可能性が高く、猫よりも大きな物体が存在すれば、それは飼い主である人間が写っている可能性が高いといった写真ならではの関係性です。

DERTの推論の流れ

まずは元となる画像を CNN(Convolutional Neural Network) に入力します。これによって特徴マップが生成されます。そこで生成された特徴マップを Transformer encoder-decoder に入力します。そうすると画像に写っているオブジェクトの個数、位置、サイズといった情報が得られます。得られた結果から “no object” となる物体として認識されなかったものを除外すると、画像全体の物体検出が完了します。

これからのAIの応用と成熟

元任天堂のゲーム開発者、横井軍平氏の著書『横井軍平ゲーム館』には「枯れた技術の水平思考」という考え方について書かれています。これは、すでに広く使われ、メリットやデメリットが明らかになっている技術をさまざまな分野に応用することで、今までになかったような使い道を生み出し、安価で安定した最大限の成果を得るという考え方です。決して古い技術を誉めたたえようという意味ではありません。

エンジニア気質が強い人や、研究志向の人であれば、常に最新技術を追い求め、独自性やオリジナリティを重視する状況もあるかもしれません。けれども今回紹介したテクノロジーや、人工知能の世界で話題になるテクノロジーは、何も目新しいものばかりではなく、旧来からあるテクノロジーを応用し、圧倒的な物量で驚くべき応用と成果を導き出していることが見受けられます。

また既存技術の組み合わせによって、あらたな応用例や現実的な用途に役立つ道筋を見出しているものも注目されています。そう考えると、これから話題になるであろう人工知能を応用するためのヒントは、そこここに転がっているのだと考えられるかもしれません。

本連載の今後の予定:「CGへの扉」では、単なるAIの話題とは少し異なり、CG/VFX, アートの文脈から話題を切り取り紹介していきます。映像制作の現場におけるAI活用や、AIで価値が高まった先進的なツール、これからの可能性を感じさせるような話題、テクノロジーの話題にご期待ください。何か取り上げて欲しいテーマやご希望などがございましたら、ぜひ編集部までお知らせください。

CGへの扉

Vol.27:眼に追いつけ追い越せ? カメラは機械学習により進化

Vol.26:アートを加速させるAIの役割 #GTC2021 レポート

Vol.25:変幻自在の顔も実は人工知能

Vol.24:自然現象もすべて人工知能で再現する時代

Vol.23:AIで人の眼に進化するカメラ

Vol.22:言葉から画像を生成、DALL-Eはクリエイティブなのか?

Vol.21:人工知能+3DCGの最新論文をまとめて紹介 #SIGGRAPHAsia2020

Vol.20:Adobeと人工知能の将来を見極める #AdobeMAX2020

Vol.19:コミュニケーションツールの新境地「NVIDIA MAXINE」

Vol.18:SIGGRAPH2020レポート 映像制作の現場で活躍する人工知能

Vol.17:描画を進化させるTensorFlow Graphicsの真価

Vol.16:バーチャル開催SIGGRAPH論文を先取り

≫≫すべてのバックナンバーはこちらから

Contributor:安藤幸央

RELATED ARTICLE関連記事

一貫性のある動画や電子透かし付き画像を生成。Googleが発表した最新生成AI解説

2024.2.21アート

一貫性のある動画や電子透かし付き画像を生成。Googleが発表した最新生成AI解...

CGへの扉 Vol.54:SIGGRAPH 2023基調講演における注目のAIトピック

2023.9.20アート

CGへの扉 Vol.54:SIGGRAPH 2023基調講演における注目のAIト...

人工知能に作家性を宿らせる方法:栗原聡氏×山野辺一記氏インタビュー(前編)

2020.4.17アート

人工知能に作家性を宿らせる方法:栗原聡氏×山野辺一記氏インタビュー(前編)

RANKING注目の記事はこちら