モリカトロン株式会社運営「エンターテインメント×AI」の最新情報をお届けするサイトです。

TAG LIST
機械学習ディープラーニングCGCGへの扉安藤幸央GANニューラルネットワーク月刊エンタメAIニュース強化学習三宅陽一郎モリカトロンAIラボインタビュー音楽OpenAI敵対的生成ネットワークQAシナリオCEDEC2019NVIDIA人工知能学会Facebookデバッグスクウェア・エニックスDeepMindCEDEC2020ゲームAI映画遺伝的アルゴリズム不完全情報ゲームキャラクターAI深層学習マイクロソフトルールベースAIと倫理ビヘイビア・ツリーGoogleSIGGRAPHGDC 2019VRメタAIボードゲーム畳み込みニューラルネットワークロボットグーグルプロシージャルVFXマルチエージェントナビゲーションAIファッション河合律子StyleGAN自動生成JSAI2020CNNMicrosoftイベントレポートモリカトロンゲームプレイAI森川幸人水野勇太ガイスターCLIP自然言語処理アートtoioHTN階層型タスクネットワークJSAI2021スポーツGPT-3TensorFlowGDC SummereSportsBLUE PROTOCOL小説DALL-EAlphaZeroカメラ環世界中島秀之懐ゲーから辿るゲームAI技術史研究ディープフェイクDARPAドローンAI美空ひばり手塚治虫汎用人工知能メタデータ通しプレイOpenAI Five本間翔太CM倫理ピクサーAdobe作曲中嶋謙互Amadeus CodeMicrosoft Azureキャリアテストプレイeスポーツ音声認識PyTorchDQN眞鍋和子バンダイナムコスタジオシーマンUnity齊藤陽介マインクラフトお知らせAIアートサルでもわかる人工知能VAEアニメーションワークショップGenvid Technologies知識表現IGDANPCどうぶつしょうぎジェイ・コウガミ音楽ストリーミングStyleGAN2マシンラーニングクラウドコンピューティショナル・フォトグラフィーGPT-2完全情報ゲーム坂本洋典釜屋憲彦藤澤仁生物学画像認識NFT長谷洋平鴫原盛之masumi toyota宮路洋一SIGGRAPH ASIA吉本幸記ソニーフェイクニュースシムピープルGPUALife人工生命オルタナティヴ・マシンサウンドスケープASBSマンガぱいどんTEZUKA2020松井俊浩スパーシャルAIElectronic ArtsマーケティングApex LegendsNinjaゲームTENTUPLAYMARVEL Future Fightタイムラプスバスキアブロックチェーン階層型強化学習WANN竹内将馬淵浩希岡島学映像セリア・ホデントUX認知科学ゲームデザインLUMINOUS ENGINELuminous Productionsパターン・ランゲージちょまどビッグデータアストロノーカ模倣学習ナラティブFPSマルコフ決定過程スタンフォード大学パラメータ設計テニスバランス調整レコメンドシステム対話型エージェント協調フィルタリング人狼知能Amazon軍事AlphaDogfight TrialsエージェントシミュレーションStarCraft IIFuture of Life InstituteIntelロボティクスLAIKARotomationドラゴンクエストライバルズ不確定ゲームDota 2モンテカルロ木探索ソーシャルゲームEmbeddingGTC2020NVIDIA MAXINE淡路滋ビデオ会議グリムノーツゴティエ・ボエダGautier Boeda階層的クラスタリングaiboJuliusSIETPRGバーチャル・ヒューマン・エージェントtoio SDK for Unityクーガー田中章愛石井敦銭起揚茂谷保伯MinecraftGDMC成沢理恵MITメディアラボ著作権マジック・リープMagic Leap OneMagendaノンファンジブルトークンDDSPサッカー里井大輝KaggleバスケットボールAssassin’s Creed OriginsSea of ThievesGEMS COMPANYmonoAI technologyアバター初音ミクOculus転移学習テストBaldur's Gate 3Candy Crush SagaSIGGRAPH ASIA 2020デバッギングBigGANMaterialGANリップシンキングRNNUbisoftReBeLUbisoft La Forge自動運転車VolvoRival Prakウォッチドッグス レギオンユービーアイソフト北尾まどかHALO将棋メタルギアソリッドVFSMナップサック問題汎用言語モデルSpotifyMITReplica StudioamuseChitrakar巡回セールスマン問題ジョルダン曲線5GMuZeroクラウドゲーミングRival Peak和田洋一リアリティ番組Stadiaジョンソン裕子MILEs対話エンジンインタラクティブ・ストリーミング斎藤由多加インタラクティブ・メディアリトル・コンピュータ・ピープルシーマン人工知能研究所Ludoゴブレット・ゴブラーズTransformerSIGGRAPH 2019ArtEmis絵画ARGROVERFAIRAIりんなチート検出オンラインカジノアップルRealFlowiPhoneシミュレーションDeep FluidsMeInGameAIGraphブレイン・コンピュータ・インタフェースBCILearning from Video予期知能ウェイポイントユクスキュルパス検索カント哲学ドラゴンクエストエージェントアーキテクチャPAIROCTOPATH TRAVELER西木康智OCTOPATH TRAVELER 大陸の覇者アルスエレクトロニカ2019StyleCLIPDeNAStyleRig逆転オセロニア奥村エルネスト純いただきストリート齋藤精一大森田不可止高橋智隆ロボユニザナック泉幸典仁井谷正充ロボコレ2019ぎゅわんぶらあ自己中心派Azure Machine Learning意思決定モデル脱出ゲームHybrid Reward ArchitectureウロチョロスSuper Phoenix理化学研究所Project Malmo教育TextWorldProject PaidiaProject LookoutWatch ForBingLEFT ALIVE長谷川誠ジミ・ヘンドリックスBaby Xカート・コバーンロバート・ダウニー・Jr.エイミー・ワインハウスMagentaYouTubeダフト・パンクSFGlenn MarshallThe Age of A.I.Story2HallucinationレコメンデーションJukeboxGTC2021CycleGANテンセントSIFTDCGANMOBADANNCE人事ハーバード大学研修デューク大学mynet.aiローグライクゲームNetHack人工音声NeurIPS 2021はこだて未来大学プレイ動画ヒップホップサイレント映画NBA環境音現代アートエージェント粒子群最適化法進化差分法群知能下川大樹ウィル・ライト高津芳希シムシティ大石真史BEiTレベルデザインDETRSporeAIボイスアクターデノイズ南カリフォルニア大学画像処理NVIDIA CanvasSentropyCPUDiscordZorkCALMプログラミングソースコード生成GMAIシチズンデベロッパーTRPGGitHubウィザードリィMCN-AI連携モデルAI DungeonMCS-AI動的連携モデル西川善司サムライスピリッツゼビウスストリートファイター栗原聡山野辺一記大里飛鳥13フェイズ構造手塚眞不気味の谷Oculus Quest生体情報写真照明山崎陽斗立木創太GameGANパックマンソサエティ5.0SIGGRAPH 2020DIB-R3D広告

CGへの扉 Vol.22:言葉から画像を生成、DALL-Eはクリエイティブなのか?

2021.1.14アート

CGへの扉 Vol.22:言葉から画像を生成、DALL-Eはクリエイティブなのか?

OpenAIから、言葉から画像を生成するDALL-Eが登場

汎用人工知能の実現を目指して研究を進める団体OpenAIが、2021年1月5日に文章から画像を生成するDALL-Eと、言葉と画像を関係づけるCLIPを発表しました(もともとOpenAIは、非営利団体でしたが、2019年3月より利益に上限のある営利団体に変わっています)。

「桃の形をしたアームチェア、桃風のアームチェア」で生成した画像

DALL-E:https://openai.com/blog/dall-e/
CLIP:https://openai.com/blog/clip/

OpenAIは、TESLAやSpaceXの創業者として知られるイーロン・マスク氏やMicrosoftが支援している汎用人工知能の研究機関で、OpenAIのチーフサイエンティストを務めるIlya Sutskever氏が、今回の研究を牽引しています。DALL-Eはテレビのクイズ番組や、伝言ゲーム等でよくある、言葉だけで説明した図柄を正確に画像で表現するというものです。

Webページや雑誌に画像や写真が掲載されている場合、その画像についての適切で短い文章の説明として「キャプション」が書かれていることがあります。一般的にキャプションはその原稿の執筆者や編集者が考えて書いていますが、DALL-Eでは逆に、いわゆるそのキャプションの文章から、適切な画像を生成するという汎用言語モデルです。

DALL-Eの名前は、シュルレアリスムと呼ばれるシュールで独特の雰囲気をもった絵画で知られるサルバドール・ダリの名前と、PIXARの長編アニメ映画に登場するゴミ集めロボットWALL-Eに由来しています。DALL-Eは大量のテキスト情報と画像情報の組み合わせ例を学習し、120億個のパラメータを持ったGPT-3の活用事例でもあります。

DALL-Eのベースとなっているのは、同じくOpenAIが開発している高精度なAI文章生成ツールGPT-3(Generative Pre-Training3)とVQ-VAE-2(Vector Quantised-Variational AutoEncoder:ベクトル量子化-変分オートエンコーダ)と呼ばれるノイズからシグナルを分離する仕組みです。

GPT-3は、1,750億のパラメータを備えた自然言語の文章生成言語モデルであり、文章の生成だけでなく、プログラムも生成できるとのことで話題になりました。ここでいうところの文章生成言語モデルは、文章の作られ方をモデル化したもので、大量の例文をもとに構築されています。

例えばある言語モデルで

 「今日のランチは…」という言葉の次に、

 「今日のランチは」→「ラーメン」「にしよう」
          →「何を」「作ろうかな?」
          →「抜きだな」

といったさまざまなパターンがモデル化されており、これらを活用して巷によくある文章を生成することができるのです。実際、簡単なお題からGPT-3で生成した文章をAmazon Mechanical Turkで一般の人に確認してもらったところ、人間が書いたものではないとバレたのは52%とのことでした。これはコイントスでランダムに裏か表かを当てる割合に近いものです。

現在GPT-3はフェイクニュースなどでの悪用を避けるためAPIでのみの公開となっており、クローズドベータと呼ばれる一部のテスター、報道関係者のみに公開されている状態です。一般公開の予定、費用などは今のところ未定です。十数億円規模と試算されている、これだけの規模の事前学習を考えると、そう安くはないと考えられます。

以下に示すのがDALL-Eの活用例です。DALL-Eの紹介ページでは完全に自由な文章でサンプルを試すことはできませんが、いくつかのキーワードを変更して新しい画像生成を試すことが可能で、その結果には大変驚かされます。まるでGoogleで画像検索した結果のような、キーワードに合致した画像が並びます。それらが実は人工知能が生成した画像だとは信じられないかもしれません。

  1. 属性、質感の制御
  2. 複数のオブジェクトの描画
  3. 遠近感と立体感の可視化
  4. 内部構造と外部構造の可視化
  5. 文脈の詳細を類推する
「ブルーベリーのステンドグラス」で生成。実際、世の中にブルーベリーのステンドグラスはほとんどない
「OpenAIの看板を掲げた店舗」で生成。実際にOpenAIというお店は無いが、それっぽい画像が生成できている

ファッションやインテリアのための活用事例を探る

「黒革のジャケットに金のプリーツスカートを履いたフェミニンなファッション」で生成
「寝室の左側には白いベッドがあり、ベッドの横には水槽がある」で生成
  1. 無関係な組み合わせを試す(例:カタツムリ型のハープ(楽器)の画像)
  2. 動物のイラストを描く
  3. 追加の学習なしで、指定した画像を描く
  4. 地理的条件や知識を生かす(例:中国風の料理の画像)
「中華料理の写真」で生成。それっぽい写真ばかりだが、架空のもの

過去や未来の知識を生かす(例:古い電話機の画像)

「◯◯年代の電話の写真」で生成。年代ごとにそれっぽい雰囲気の電話機が生成されている。実際の電話機では無い。

DALL-Eに追従する研究者たち

OpenAIのDALL-Eの発表に刺激を受け、世界中の人工知能研究者がDALL-Eの実装を類推したり、サンプル実装を試してみたりしています。このようなスピード感や情報共有の気概が昨今の人工知能研究の勢いにもつながっているように感じられます。

ソースコード:人工知能活用の定番フレームワークPytorchによるサンプル実装「DALL-E in Pytorch」

ソースコード:GPTの代わりにTensorFlowを活用したDALL-Eサンプル実装「EleutherAI/DALLE-mtf」

DALL-Eと双璧をなすCLIPとは?

左上:頭が欠けているがカンガルーだと判別、右上:犬の品種シベリアンハスキーの絵だと認識、左下:メインクーンという猫の品種を判別、右下:画像が荒いがヘビだと認識

OpenAIがDALL-Eと同時に発表したCLIP(Contrastive Language-Image Pre-training)は、画像に写っているものが何であるのかをカテゴリ名を与えることで、個別の学習なし事前学習のみで、ある程度類推可能にする手法です。CLIPはネット上にある4億の画像とそのキャプションを集めて事前学習したもので、今までに見たことがないものを類推することのできる、いわゆる「ゼロショット学習」に対応しています。

一般公開されているCLIPのソースコード:https://github.com/openai/CLIP
OpenAI公式のCLIPの解説:https://openai.com/blog/clip/

人工知能とクリエイティビティの現状

よくある議論ですが、DALL-Eがここまで自由気ままにクオリティの高い画像を生成することができるようになった今、デザイナーや画家や写真家の仕事はなくなってしまうのでしょうか? バリエーションを数多く素早く作るのであれば人工知能が有利かもしれません。けれどもどれが良いのかを最終的に判断するのは現在のところまだ人間です。

ただし今後GAN(敵対的ネットワーク)の考えと同じように、有識者の正しい選択を学習していけば、気分に左右されたり依怙贔屓(えこひいき)したりすることのない、ブレのない判断ができる人工知能活用の可能性も考えらせます。また、数多くあるバリエーションから良いものを判断する際にも、ある一人の天才デザイナーや天才プランナーの判断ではない、多くの人々による集合知の結果から導き出される判断も今後増えてくるかもしれません。

現在多くの話題を集めているGPT-3の成績が良いのは、世の中にすでに存在するデータ、つまり教科書すべてを暗記したからです。そこから考えると、ゼロから何か価値のあるものを生み出すのは苦手だということになります。従って、現在のDALL-Eに対する私たちの驚きは「成績が良い」ことに対する驚きであり、生み出された画像に感動を覚えたり、美しさや情緒を感じたりしているわけではありません。

ここで、画家サルバドール・ダリの言葉が思い出されます。

 ”Those who do not want to imitate anything, produce nothing.”
 「何も真似ようとしない者は、何も生み出しはしない」

現在の人工知能研究が置かれている状況は、オリジナリティ云々、クリエイティビティ云々ではなく、まずは人間の真似をしながらスキルやセンスを磨いている、いわば研鑽や修行の段階なのだと見て取れるのです。OpenAIでは、DALL-EやCLIPの社会的影響を十分に考えており、ネット上のデータを活用したことによる情報の偏りや、意図しないバイアス、長期的な倫理的課題や著作権の課題などを十分に考えながら展開していくとのことです。

本連載の今後の予定:「CGへの扉」では、単なるAIの話題とは少し異なり、CG/VFX, アートの文脈から話題を切り取り紹介していきます。映像制作の現場におけるAI活用や、AIで価値が高まった先進的なツール、これからの可能性を感じさせるような話題、テクノロジーの話題にご期待ください。なにか取り上げて欲しいテーマやご希望などがございましたら、ぜひ編集部までお知らせください。

CGへの扉

Vol.20:Adobeと人工知能の将来を見極める #AdobeMAX2020

Vol.19:コミュニケーションツールの新境地「NVIDIA MAXINE」

Vol.18:SIGGRAPH2020レポート 映像制作の現場で活躍する人工知能

Vol.17:描画を進化させるTensorFlow Graphicsの真価

Vol.16:バーチャル開催SIGGRAPH論文を先取り

Vol.15:撮影に革新をもたらすAIによる照明

Vol.14:AIが生み出す顔と人間の表情

Vol.13:AIのクリエイティブとクリエイティビティ再考

Vol.12:AIのおかげで映像の拡大やノイズ除去が高品質に

Vol.11:動き、ダンスに新しい要素を加えるAIの役目

Vol.10:老齢とは無縁、De-Aging技術の台頭

≫≫すべてのバックナンバーはこちらから

Contributor:安藤幸央

RELATED ARTICLE関連記事

CGへの扉 Vol.7:AIによる差別やバイアスを避ける取り組み“PAIR”

2019.10.16アート

CGへの扉 Vol.7:AIによる差別やバイアスを避ける取り組み“PAIR”

CGへの扉 Vol.10:老齢とは無縁、De-Aging技術の台頭

2020.1.15アート

CGへの扉 Vol.10:老齢とは無縁、De-Aging技術の台頭

CGへの扉 Vol.28:定番手法の他分野応用、自然言語処理AI由来の画像処理AI

2021.7.16アート

CGへの扉 Vol.28:定番手法の他分野応用、自然言語処理AI由来の画像処理A...

RANKING注目の記事はこちら