モリカトロン株式会社運営「エンターテインメント×AI」の最新情報をお届けするサイトです。
- TAG LIST
- CGCGへの扉機械学習安藤幸央ディープラーニング月刊エンタメAIニュースGAN河合律子OpenAINVIDIA音楽吉本幸記ニューラルネットワーク三宅陽一郎強化学習GoogleQAグーグルDeepMindGPT-3Facebook自然言語処理人工知能学会大内孝子森川幸人敵対的生成ネットワークシナリオキャラクターAIスクウェア・エニックスモリカトロンAIラボインタビューマイクロソフトルールベースStable DiffusionAIと倫理アート映画デバッグNFTDALL-E2StyleGAN倫理ゲームプレイAI自動生成SIGGRAPHモリカトロンメタAIテキスト画像生成ロボット深層学習ファッションCEDEC2019プロシージャルVFXデジタルツイン遺伝的アルゴリズムテストプレイNPCDALL-ECLIP画像生成大規模言語モデルChatGPTビヘイビア・ツリーディープフェイクCEDEC2021CEDEC2020ゲームAIメタバース不完全情報ゲームVRナビゲーションAI画像生成AIボードゲーム畳み込みニューラルネットワークGDC 2021JSAI2022生成系AIAdobeGDC 2019マルチエージェントCEDEC2022著作権AIアート懐ゲーから辿るゲームAI技術史toioジェネレーティブAICNNMicrosoftNVIDIA OmniverseUnity小説アニメーション鴫原盛之HTN階層型タスクネットワークマンガ汎用人工知能JSAI2020GTC2023TensorFlowインタビューバーチャルヒューマンBERTMidjourneyイベントレポート対話型エージェントAmazonロボティクスMetaMinecraft水野勇太アバターOmniverse3DCGUbisoftGenvid TechnologiesガイスターStyleGAN2GTC2022教育ソニーJSAI2021スポーツ研究シムピープルMCS-AI動的連携モデルマーケティングGDC SummerLLMブロックチェーン作曲アストロノーカキャリアeスポーツスタンフォード大学サイバーエージェント音声認識eSportsDQNBLUE PROTOCOLシーマンStability AIメタAlphaZeroTransformerGPT-2rinnaAIりんなデジタルヒューマンカメラ環世界中島秀之PaLM哲学ベリサーブPlayable!理化学研究所SIGGRAPH ASIANetflix東京大学DARPAドローンシムシティImagenZorkバイアスモーションキャプチャーTEZUKA2020AI美空ひばり手塚治虫テキスト生成バンダイナムコ研究所スパーシャルAIElectronic Arts3DメタデータLEFT 4 DEAD通しプレイOpenAI Five本間翔太CMAudio2Faceピクサープラチナエッグイーサリアムボエダ・ゴティエビッグデータ中嶋謙互Amadeus Codeデータ分析Microsoft AzureMILE模倣学習ナラティブNVIDIA RivaアーケードゲームOmniverse ReplicatorWCCFレコメンドシステムNVIDIA DRIVE SimWORLD CLUB Champion FootballNVIDIA Isaac Simセガ柏田知大軍事田邊雅彦トレーディングカードトレカメディアアートGPTPyTorch眞鍋和子バンダイナムコスタジオaibo合成音声齊藤陽介マインクラフトお知らせMagic Leap Oneチャットボットサルでもわかる人工知能VAEDreamFusionリップシンキングUbisoft La Forge自動運転車ワークショップ知識表現ウォッチドッグス レギオンIGDA秋期GTC2022市場分析どうぶつしょうぎEpic Gamesジェイ・コウガミ音楽ストリーミングMITAIロボ「迷キュー」に挑戦AWS野々下裕子徳井直生マシンラーニング5GMuZeroRival Peakpixivクラウド対話エンジン斎藤由多加リトル・コンピュータ・ピープルCodexコンピューティショナル・フォトグラフィーゴブレット・ゴブラーズ絵画ARMicrosoft Designerイラストシミュレーション完全情報ゲーム坂本洋典釜屋憲彦ウェイポイントパス検索対談藤澤仁生物学GTC 2022画像認識GPT-3.5SiemensStyleCLIPDeNA長谷洋平masumi toyota宮路洋一OpenSeaGDC 2022Gen-1TextWorldEarth-2BingMagenta音楽生成AISFELYZA Pencil松尾豊GTC2021CycleGANテンセントデータマイニングNetHackはこだて未来大学Bardキャラクターモーションフェイクニュース現代アートエージェントRPGSIGGRAPH 2022レベルデザインAIボイスアクターNVIDIA CanvasGPUALife人工生命オルタナティヴ・マシンサウンドスケープLaMDATRPGAI DungeonプロンプトASBS栗原聡ぱいどんアドベンチャーゲーム不気味の谷ナビゲーションメッシュ松井俊浩ELYZAフルコトELYZA DIGEST建築音声合成NeRF西成活裕Apex LegendsELIZA群衆マネジメントライブポートレイトNinjaコンピュータRPGライブビジネスWonder Studioアップルタウン物語新型コロナ土木KELDIC周済涛BIMメロディ言語清田陽司インフラゲームTENTUPLAYサイバネティックスMARVEL Future FightAstro人工知能史Amazon BedrockタイムラプスEgo4DAI哲学マップイーロン・マスクバスキア星新一X.AI日経イノベーション・ラボStyleGAN-XLX Corp.敵対的強化学習StyleGAN3Twitter階層型強化学習GOSU Data LabGANimatorXホールディングスWANNGOSU Voice AssistantVoLux-GANMagi竹内将SenpAI.GGProjected GANStable Diffusion XLMobalyticsSelf-Distilled StyleGANSDXL馬淵浩希CygamesニューラルレンダリングRTFKT岡島学AWS SagemakerPLATONIKE映像セリア・ホデント形態素解析frame.ioClone XUXAWS LambdaFoodly村上隆誤字検出森山和道認知科学中川友紀子Digital MarkゲームデザインSentencePieceアールティSnapchatLUMINOUS ENGINEクリエイターコミュニティLuminous ProductionsBlenderBot 3バーチャルペットパターン・ランゲージ竹村也哉Meta AINVIDIA NeMo Serviceちょまどマーク・ザッカーバーグヴァネッサ・ローザGOAPWACULVanessa A RosaAdobe MAX 2021陶芸自動翻訳Play.ht音声AIAIライティングLiDAROmniverse AvatarAIのべりすとPolycamFPSQuillBotdeforumマルコフ決定過程NVIDIA MegatronCopysmith動画生成AINVIDIA MerlinJasperハーベストNVIDIA MetropolisForGamesパラメータ設計テニスゲームマーケットバランス調整岡野翔太協調フィルタリング郡山喜彦人狼知能テキサス大学ジェフリー・ヒントンGoogle I/O 2023AlphaDogfight TrialsAI Messenger VoicebotGoogle I/OエージェントシミュレーションOpenAI Codex武蔵野美術大学StarCraft IIHyperStyleMax CooperBingAIFuture of Life InstituteRendering with StyleIntelDisney類家利直FireflyLAIKADisneyリサーチヴィトゲンシュタインPhotoshopRotomationGauGAN論理哲学論考LightroomGauGAN2京都芸術大学Canvaドラゴンクエストライバルズ画像言語表現モデルChatGPT4不確定ゲームSIGGRAPH ASIA 2021PromptBaseBOOTHDota 2モンテカルロ木探索ディズニーリサーチpixivFANBOXMitsuba2バンダイナムコネクサス虎の穴ソーシャルゲームEmbeddingワイツマン科学研究所ユーザーレビューFantiaGTC2020CG衣装mimicとらのあなNVIDIA MAXINEVRファッションBaidu集英社淡路滋ビデオ会議ArtflowERNIE-ViLG少年ジャンプ+グリムノーツEponym古文書ComicCopilotゴティエ・ボエダ音声クローニング凸版印刷コミコパGautier Boeda階層的クラスタリングGopherAI-OCRゲームマスター画像判定Inowrld AIJuliusSIE鑑定ラベル付けMODTPRGOxia Palus大澤博隆Ghostwriterバーチャル・ヒューマン・エージェントtoio SDK for UnityArt RecognitionSFプロトタイピングSkyrimクーガー田中章愛実況パワフルサッカースカイリム石井敦銭起揚NHC 2021桃太郎電鉄RPGツクールMZ茂谷保伯池田利夫桃鉄ChatGPT_APIMZGDMC新刊案内パワサカダンジョンズ&ドラゴンズマーベル・シネマティック・ユニバースコナミデジタルエンタテインメントOracle RPG成沢理恵MITメディアラボMCU岩倉宏介深津貴之アベンジャーズPPOxVASynthマジック・リープDigital DomainMachine Learning Project CanvasLaser-NVMagendaMasquerade2.0国立情報学研究所TencentノンファンジブルトークンDDSPフェイシャルキャプチャー石川冬樹MERFサッカーモリカトロン開発者インタビュースパコンAlibaba里井大輝Kaggle宮本茂則スーパーコンピュータVQRFバスケットボール山田暉松岡 聡nvdiffrecAssassin’s Creed OriginsAI会話ジェネレーターTSUBAME 1.0NeRFMeshingSea of ThievesTSUBAME 2.0LERFGEMS COMPANYmonoAI technologyLSTMABCIマスタリングモリカトロンAIソリューション富岳TikTok初音ミクOculusコード生成AISociety 5.0リアム・ギャラガー転移学習テストAlphaCode夏の電脳甲子園グライムスBaldur's Gate 3Codeforces座談会BoomyCandy Crush Saga自己増強型AItext-to-imageジョン・レジェンドSIGGRAPH ASIA 2020COLMAPtext-to-3Dザ・ウィークエンドADOPNVIDIA GET3DドレイクデバッギングBigGANGANverse3DMaterialGANRNNグランツーリスモSPORTAI絵師ReBeLグランツーリスモ・ソフィーUGCGTソフィーPGCVolvoFIAグランツーリスモチャンピオンシップNovelAIRival PrakDGX A100NovelAI DiffusionVTuberユービーアイソフトWebcam VTuberモーションデータ星新一賞北尾まどかHALOポーズ推定将棋メタルギアソリッドVフォートナイトメッシュ生成FSMメルセデス・ベンツRobloxMagic Leapナップサック問題Live NationEpyllion汎用言語モデルWeb3.0マシュー・ボールAIOpsムーアの法則SpotifyスマートコントラクトReplica StudioamuseChitrakarQosmoAdobe MAX 2022巡回セールスマン問題Adobe MAXジョルダン曲線メディアAdobe Research政治Galacticaクラウドゲーミングがんばれ森川君2号和田洋一リアリティ番組映像解析Stadiaジョンソン裕子セキュリティMILEsNightCafe東芝デジタルソリューションズインタラクティブ・ストリーミングLuis RuizSATLYS 映像解析AIインタラクティブ・メディアポケモン3DスキャンPFN 3D Scanシーマン人工知能研究所東京工業大学Ludo博報堂Preferred NetworksラップPFN 4D ScanSIGGRAPH 2019ArtEmisZ世代DreamUpAIラッパーシステムDeviantArtWaifu DiffusionGROVERプラスリンクス ~キミと繋がる想い~元素法典FAIRSTCNovel AIチート検出Style Transfer ConversationOpen AIオンラインカジノRCPアップルRealFlowRinna Character PlatformiPhoneCALADeep FluidsSoul Machines柿沼太一MeInGameAmeliaELSIAIGraphブレイン・コンピュータ・インタフェースバーチャルキャラクターBCIGateboxアフォーダンスLearning from VideoANIMAKPaLM-SayCan予期知能逢妻ヒカリセコムGitHub Copilotユクスキュルバーチャル警備システムCode as Policiesカント損保ジャパンCaP上原利之ドラゴンクエストエージェントアーキテクチャアッパーグラウンドコリジョンチェックPAIROCTOPATH TRAVELER西木康智OCTOPATH TRAVELER 大陸の覇者山口情報芸術センター[YCAM]アルスエレクトロニカ2019品質保証YCAMStyleRigAutodeskアンラーニング・ランゲージ逆転オセロニアBentley Systemsカイル・マクドナルドワールドシミュレーターローレン・リー・マッカーシー奥村エルネスト純いただきストリートH100鎖国[Walled Garden]プロジェクト齋藤精一大森田不可止COBOLSIGGRAPH ASIA 2022高橋智隆DGX H100VToonifyロボユニザナックDGX SuperPODControlVAE泉幸典仁井谷正充クラウドコンピューティング変分オートエンコーダーロボコレ2019Instant NeRFフォトグラメトリartonomous回帰型ニューラルネットワークbitGANsDeepJoinぎゅわんぶらあ自己中心派Azure Machine LearningAzure OpenAI Service意思決定モデル脱出ゲームDeepLHybrid Reward Architectureコミュニティ管理DeepL WriteウロチョロスSuper PhoenixSNSProject Malmoオンラインゲーム気候変動Project PaidiaシンギュラリティProject Lookoutマックス・プランク気象研究所レイ・カーツワイルWatch Forビョルン・スティーブンスヴァーナー・ヴィンジ気象モデルRunway ResearchLEFT ALIVE気象シミュレーションMake-A-Video長谷川誠ジミ・ヘンドリックス環境問題PhenakiBaby Xカート・コバーンエコロジーDreamixロバート・ダウニー・Jr.エイミー・ワインハウスSDGsText-to-ImageモデルYouTubeダフト・パンクメモリスタ音声生成AIGlenn MarshallScenarioThe Age of A.I.Story2Hallucination音声変換LatitudeレコメンデーションJukeboxAIピカソVeap JapanAI素材.comEAPneoAISIFT福井千春DreamIconDCGAN医療mignMOBADANNCEメンタルケアstudiffuse人事ハーバード大学Edgar HandyAndreessen Horowitz研修デューク大学AIQVE ONEQA Tech Nightmynet.aiローグライクゲーム松木晋祐東京理科大学下田純也人工音声NeurIPS 2021産業技術総合研究所桑野範久リザバーコンピューティングプレイ動画ヒップホップ対話型AIモデル詩ソニーマーケティングControlNetサイレント映画もじぱnoteNBA環境音暗号通貨note AIアシスタントFUZZLEKetchupAlterationAI News粒子群最適化法Art Selfie進化差分法オープンワールドArt Transfer群知能下川大樹AIFAPet Portraitsウィル・ライト高津芳希P2EBlob Opera大石真史クリムトBEiTStyleGAN-NADA世界モデルDETRゲームエンジンDreamerV3SporeUnreal Engineクリティックネットワークデノイズ南カリフォルニア大学Unity for Industryアクターネットワーク画像処理DMLabSentropyGLIDEControl SuiteCPUDiscordAvatarCLIPAtari 100kSynthetic DataAtari 200MCALMYann LeCunプログラミングサム・アルトマン鈴木雅大ソースコード生成コンセプトアートGMAIシチズンデベロッパーSonanticColie WertzGitHubCohereリドリー・スコットウィザードリィMCN-AI連携モデルマジック:ザ・ギャザリング絵コンテUrzas.aiストーリーボード介護大阪大学西川善司並木幸介KikiBlenderサムライスピリッツ森寅嘉Zoetic AIゼビウスSIGGRAPH 2021ペットGPT-4ストリートファイター半導体Digital Dream LabsPaLM APITopaz Video Enhance AICozmoMakerSuiteDLSSタカラトミーSkeb山野辺一記NetEaseLOVOTDreambooth-Stable-Diffusion大里飛鳥DynamixyzMOFLINゲーム背景RomiGoogle EarthU-NetミクシィGEPPETTO AI13フェイズ構造ユニロボットStable Diffusion web UIADVユニボPoint-EXLandGatoアパレルAGIAI model手塚眞DEATH STRANDINGマルチモーダルAI ModelsEric Johnson汎用強化学習AIZMO.AIデザインMOBBY’SOculus Questコジマプロダクションロンドン芸術大学モビーディック生体情報デシマエンジンGoogle BrainダイビングインディーゲームSound Controlアウトドア写真高橋ミレイSYNTH SUPERAIスキャニング照明Maxim PeterKarl Sims自動採寸Joshua RomoffArtnome3DLOOKハイパースケープICONATESizer山崎陽斗深層強化学習ワコール立木創太松原仁スニーカー浜中雅俊UNSTREETミライ小町武田英明Newelseテスラ福井健策CheckGoodsGameGAN二次流通パックマンTesla BotNEDO中古市場Tesla AI DayWikipediaDupe Killerソサエティ5.0Sphere偽ブランドSIGGRAPH 2020バズグラフXaver 1000配信ニュースタンテキ養蜂東芝Beewiseソニー・ピクチャーズ アニメーションDIB-R倉田宜典フィンテック投資Fosters+Partners韻律射影MILIZEZaha Hadid Architects広告韻律転移三菱UFJ信託銀行
CGへの扉 Vol.22:言葉から画像を生成、DALL-Eはクリエイティブなのか?
OpenAIから、言葉から画像を生成するDALL-Eが登場
汎用人工知能の実現を目指して研究を進める団体OpenAIが、2021年1月5日に文章から画像を生成するDALL-Eと、言葉と画像を関係づけるCLIPを発表しました(もともとOpenAIは、非営利団体でしたが、2019年3月より利益に上限のある営利団体に変わっています)。

OpenAIは、TESLAやSpaceXの創業者として知られるイーロン・マスク氏やMicrosoftが支援している汎用人工知能の研究機関で、OpenAIのチーフサイエンティストを務めるIlya Sutskever氏が、今回の研究を牽引しています。DALL-Eはテレビのクイズ番組や、伝言ゲーム等でよくある、言葉だけで説明した図柄を正確に画像で表現するというものです。
Webページや雑誌に画像や写真が掲載されている場合、その画像についての適切で短い文章の説明として「キャプション」が書かれていることがあります。一般的にキャプションはその原稿の執筆者や編集者が考えて書いていますが、DALL-Eでは逆に、いわゆるそのキャプションの文章から、適切な画像を生成するという汎用言語モデルです。
DALL-Eの名前は、シュルレアリスムと呼ばれるシュールで独特の雰囲気をもった絵画で知られるサルバドール・ダリの名前と、PIXARの長編アニメ映画に登場するゴミ集めロボットWALL-Eに由来しています。DALL-Eは大量のテキスト情報と画像情報の組み合わせ例を学習し、120億個のパラメータを持ったGPT-3の活用事例でもあります。
DALL-Eのベースとなっているのは、同じくOpenAIが開発している高精度なAI文章生成ツールGPT-3(Generative Pre-Training3)とVQ-VAE-2(Vector Quantised-Variational AutoEncoder:ベクトル量子化-変分オートエンコーダ)と呼ばれるノイズからシグナルを分離する仕組みです。
GPT-3は、1,750億のパラメータを備えた自然言語の文章生成言語モデルであり、文章の生成だけでなく、プログラムも生成できるとのことで話題になりました。ここでいうところの文章生成言語モデルは、文章の作られ方をモデル化したもので、大量の例文をもとに構築されています。
例えばある言語モデルで
「今日のランチは…」という言葉の次に、
「今日のランチは」→「ラーメン」「にしよう」
→「何を」「作ろうかな?」
→「抜きだな」
といったさまざまなパターンがモデル化されており、これらを活用して巷によくある文章を生成することができるのです。実際、簡単なお題からGPT-3で生成した文章をAmazon Mechanical Turkで一般の人に確認してもらったところ、人間が書いたものではないとバレたのは52%とのことでした。これはコイントスでランダムに裏か表かを当てる割合に近いものです。
現在GPT-3はフェイクニュースなどでの悪用を避けるためAPIでのみの公開となっており、クローズドベータと呼ばれる一部のテスター、報道関係者のみに公開されている状態です。一般公開の予定、費用などは今のところ未定です。十数億円規模と試算されている、これだけの規模の事前学習を考えると、そう安くはないと考えられます。
以下に示すのがDALL-Eの活用例です。DALL-Eの紹介ページでは完全に自由な文章でサンプルを試すことはできませんが、いくつかのキーワードを変更して新しい画像生成を試すことが可能で、その結果には大変驚かされます。まるでGoogleで画像検索した結果のような、キーワードに合致した画像が並びます。それらが実は人工知能が生成した画像だとは信じられないかもしれません。
- 属性、質感の制御
- 複数のオブジェクトの描画
- 遠近感と立体感の可視化
- 内部構造と外部構造の可視化
- 文脈の詳細を類推する


ファッションやインテリアのための活用事例を探る


- 無関係な組み合わせを試す(例:カタツムリ型のハープ(楽器)の画像)
- 動物のイラストを描く
- 追加の学習なしで、指定した画像を描く
- 地理的条件や知識を生かす(例:中国風の料理の画像)

過去や未来の知識を生かす(例:古い電話機の画像)

DALL-Eに追従する研究者たち
OpenAIのDALL-Eの発表に刺激を受け、世界中の人工知能研究者がDALL-Eの実装を類推したり、サンプル実装を試してみたりしています。このようなスピード感や情報共有の気概が昨今の人工知能研究の勢いにもつながっているように感じられます。
ソースコード:人工知能活用の定番フレームワークPytorchによるサンプル実装「DALL-E in Pytorch」
ソースコード:GPTの代わりにTensorFlowを活用したDALL-Eサンプル実装「EleutherAI/DALLE-mtf」
DALL-Eと双璧をなすCLIPとは?

OpenAIがDALL-Eと同時に発表したCLIP(Contrastive Language-Image Pre-training)は、画像に写っているものが何であるのかをカテゴリ名を与えることで、個別の学習なし事前学習のみで、ある程度類推可能にする手法です。CLIPはネット上にある4億の画像とそのキャプションを集めて事前学習したもので、今までに見たことがないものを類推することのできる、いわゆる「ゼロショット学習」に対応しています。
一般公開されているCLIPのソースコード:https://github.com/openai/CLIP
OpenAI公式のCLIPの解説:https://openai.com/blog/clip/
人工知能とクリエイティビティの現状
よくある議論ですが、DALL-Eがここまで自由気ままにクオリティの高い画像を生成することができるようになった今、デザイナーや画家や写真家の仕事はなくなってしまうのでしょうか? バリエーションを数多く素早く作るのであれば人工知能が有利かもしれません。けれどもどれが良いのかを最終的に判断するのは現在のところまだ人間です。
ただし今後GAN(敵対的ネットワーク)の考えと同じように、有識者の正しい選択を学習していけば、気分に左右されたり依怙贔屓(えこひいき)したりすることのない、ブレのない判断ができる人工知能活用の可能性も考えらせます。また、数多くあるバリエーションから良いものを判断する際にも、ある一人の天才デザイナーや天才プランナーの判断ではない、多くの人々による集合知の結果から導き出される判断も今後増えてくるかもしれません。
現在多くの話題を集めているGPT-3の成績が良いのは、世の中にすでに存在するデータ、つまり教科書すべてを暗記したからです。そこから考えると、ゼロから何か価値のあるものを生み出すのは苦手だということになります。従って、現在のDALL-Eに対する私たちの驚きは「成績が良い」ことに対する驚きであり、生み出された画像に感動を覚えたり、美しさや情緒を感じたりしているわけではありません。
ここで、画家サルバドール・ダリの言葉が思い出されます。
”Those who do not want to imitate anything, produce nothing.”
「何も真似ようとしない者は、何も生み出しはしない」
現在の人工知能研究が置かれている状況は、オリジナリティ云々、クリエイティビティ云々ではなく、まずは人間の真似をしながらスキルやセンスを磨いている、いわば研鑽や修行の段階なのだと見て取れるのです。OpenAIでは、DALL-EやCLIPの社会的影響を十分に考えており、ネット上のデータを活用したことによる情報の偏りや、意図しないバイアス、長期的な倫理的課題や著作権の課題などを十分に考えながら展開していくとのことです。
本連載の今後の予定:「CGへの扉」では、単なるAIの話題とは少し異なり、CG/VFX, アートの文脈から話題を切り取り紹介していきます。映像制作の現場におけるAI活用や、AIで価値が高まった先進的なツール、これからの可能性を感じさせるような話題、テクノロジーの話題にご期待ください。なにか取り上げて欲しいテーマやご希望などがございましたら、ぜひ編集部までお知らせください。
Vol.20:Adobeと人工知能の将来を見極める #AdobeMAX2020
Vol.19:コミュニケーションツールの新境地「NVIDIA MAXINE」
Vol.18:SIGGRAPH2020レポート 映像制作の現場で活躍する人工知能
Vol.17:描画を進化させるTensorFlow Graphicsの真価
Contributor:安藤幸央