モリカトロン株式会社運営「エンターテインメント×AI」の最新情報をお届けするサイトです。

TAG LIST
ディープラーニングCG機械学習CGへの扉安藤幸央GAN月刊エンタメAIニュースニューラルネットワーク強化学習三宅陽一郎音楽OpenAIモリカトロンAIラボインタビュー敵対的生成ネットワーク河合律子QAスクウェア・エニックスNVIDIAシナリオFacebookキャラクターAIルールベースDeepMindデバッグCEDEC2019プロシージャル人工知能学会映画ビヘイビア・ツリーGoogleCEDEC2021CEDEC2020ゲームAISIGGRAPH遺伝的アルゴリズム不完全情報ゲームメタAIナビゲーションAI森川幸人畳み込みニューラルネットワーク自然言語処理深層学習マイクロソフトAIと倫理グーグルStyleGAN自動生成GDC 2021GPT-3GDC 2019マルチエージェントVRボードゲームロボットアートCNNVFXモリカトロンゲームプレイAIファッションHTN階層型タスクネットワークディープフェイクJSAI2020大内孝子TensorFlowMicrosoftイベントレポートテストプレイAIアート水野勇太アニメーションガイスターNPCDALL-ECLIPStyleGAN2NFTtoio吉本幸記JSAI2021スポーツシムピープル汎用人工知能GDC SummerAdobeeスポーツ対話型エージェントeSportsBLUE PROTOCOLシーマン小説UbisoftAlphaZeroカメラ環世界中島秀之懐ゲーから辿るゲームAI技術史研究DARPAドローンシムシティAI美空ひばり手塚治虫Electronic Artsメタデータブロックチェーン通しプレイOpenAI Five本間翔太CM倫理ピクサーイーサリアム作曲中嶋謙互Amadeus CodeMicrosoft AzureデジタルツインアストロノーカキャリアナラティブAmazonサイバーエージェント音声認識ロボティクスPyTorchDQN眞鍋和子バンダイナムコスタジオUnity齊藤陽介マインクラフトお知らせアバターサルでもわかる人工知能VAEUbisoft La ForgeワークショップGenvid Technologies知識表現ウォッチドッグス レギオンIGDAどうぶつしょうぎジェイ・コウガミ音楽ストリーミングマシンラーニングクラウド斎藤由多加リトル・コンピュータ・ピープルコンピューティショナル・フォトグラフィーGPT-2完全情報ゲーム坂本洋典釜屋憲彦ウェイポイントパス検索藤澤仁生物学画像認識DeNA長谷洋平鴫原盛之masumi toyota宮路洋一TextWorldSIGGRAPH ASIAソニーGTC2021CycleGANフェイクニュースエージェントGPUALifeZork人工生命オルタナティヴ・マシンサウンドスケープMCS-AI動的連携モデルASBSマンガぱいどんTEZUKA2020ナビゲーションメッシュ松井俊浩スパーシャルAIマーケティングApex LegendsELIZANinjaコンピュータRPGアップルタウン物語KELDICメロディ言語ゲームTENTUPLAYLEFT 4 DEADMARVEL Future FightAstroタイムラプスEgo4Dバスキアバーチャルヒューマン日経イノベーション・ラボ敵対的強化学習階層型強化学習GOSU Data LabWANNGOSU Voice Assistant竹内将SenpAI.GGMobalytics馬淵浩希Cygames岡島学AWS Sagemaker映像セリア・ホデント形態素解析UXAWS Lambda誤字検出認知科学BERTゲームデザインSentencePieceLUMINOUS ENGINEプラチナエッグLuminous Productionsパターン・ランゲージ竹村也哉ちょまどボエダ・ゴティエビッグデータGOAPAdobe MAX 2021メタバース模倣学習NVIDIA OmniverseOmniverse AvatarFPSNVIDIA Rivaマルコフ決定過程NVIDIA MegatronNVIDIA Merlinスタンフォード大学NVIDIA Metropolisパラメータ設計テニスOmniverse Replicatorバランス調整レコメンドシステムNVIDIA DRIVE Sim協調フィルタリングNVIDIA Isaac Sim人狼知能テキサス大学軍事AlphaDogfight TrialsAI Messenger VoicebotエージェントシミュレーションOpenAI CodexStarCraft IIHyperStyleFuture of Life InstituteRendering with StyleIntelDisneyLAIKADisneyリサーチRotomationGauGANGauGAN2ドラゴンクエストライバルズ画像言語表現モデル不確定ゲームSIGGRAPH ASIA 2021Dota 2モンテカルロ木探索ディズニーリサーチMitsuba2ソーシャルゲームEmbeddingワイツマン科学研究所GTC2020CG衣装NVIDIA MAXINEVRファッション淡路滋ビデオ会議グリムノーツゴティエ・ボエダGautier Boeda階層的クラスタリングaiboJuliusSIETPRGバーチャル・ヒューマン・エージェントtoio SDK for Unityクーガー田中章愛石井敦銭起揚茂谷保伯MinecraftGDMC成沢理恵MITメディアラボ著作権マジック・リープMagic Leap OneMagendaノンファンジブルトークンDDSPサッカー里井大輝KaggleバスケットボールAssassin’s Creed OriginsSea of ThievesGEMS COMPANYmonoAI technology初音ミクOculus転移学習テストBaldur's Gate 3Candy Crush SagaSIGGRAPH ASIA 2020デバッギングBigGANMaterialGANリップシンキングRNNReBeL自動運転車VolvoRival Prakユービーアイソフト北尾まどかHALO将棋メタルギアソリッドVFSMナップサック問題汎用言語モデルSpotifyMITReplica StudioamuseChitrakar巡回セールスマン問題ジョルダン曲線5GMuZeroクラウドゲーミングRival Peak和田洋一リアリティ番組Stadiaジョンソン裕子MILEs対話エンジンインタラクティブ・ストリーミングインタラクティブ・メディアシーマン人工知能研究所Ludoゴブレット・ゴブラーズTransformerSIGGRAPH 2019ArtEmis絵画ARGROVERFAIRAIりんなチート検出オンラインカジノアップルRealFlowiPhoneシミュレーションDeep FluidsMeInGameAIGraphブレイン・コンピュータ・インタフェースBCILearning from Video予期知能ユクスキュルカント哲学ドラゴンクエストエージェントアーキテクチャPAIROCTOPATH TRAVELER西木康智OCTOPATH TRAVELER 大陸の覇者アルスエレクトロニカ2019StyleCLIPStyleRig逆転オセロニア奥村エルネスト純いただきストリート齋藤精一大森田不可止高橋智隆ロボユニザナック泉幸典仁井谷正充ロボコレ2019ぎゅわんぶらあ自己中心派Azure Machine Learning意思決定モデル脱出ゲームHybrid Reward ArchitectureウロチョロスSuper Phoenix理化学研究所Project Malmo教育Project PaidiaProject LookoutWatch ForBingLEFT ALIVE長谷川誠ジミ・ヘンドリックスBaby Xカート・コバーンロバート・ダウニー・Jr.エイミー・ワインハウスMagentaYouTubeダフト・パンクSFGlenn MarshallThe Age of A.I.Story2HallucinationレコメンデーションJukeboxテンセントSIFTDCGANMOBADANNCE人事ハーバード大学研修デューク大学mynet.aiローグライクゲームNetHack人工音声NeurIPS 2021はこだて未来大学プレイ動画ヒップホップサイレント映画NBA環境音現代アート粒子群最適化法進化差分法群知能下川大樹ウィル・ライト高津芳希大石真史BEiTレベルデザインDETRSporeAIボイスアクターデノイズ南カリフォルニア大学画像処理NVIDIA CanvasSentropyCPUDiscordCALMプログラミングソースコード生成GMAIシチズンデベロッパーTRPGGitHubウィザードリィMCN-AI連携モデルAI Dungeon西川善司並木幸介サムライスピリッツ森寅嘉ゼビウスSIGGRAPH 2021ストリートファイター半導体Topaz Video Enhance AI栗原聡DLSS山野辺一記NetEase大里飛鳥DynamixyzモーションキャプチャーU-Net13フェイズ構造アドベンチャーゲームADVXLandAGI手塚眞DEATH STRANDING不気味の谷Eric JohnsonOculus Questコジマプロダクション生体情報デシマエンジンインディーゲーム写真高橋ミレイ照明Maxim PeterJoshua Romoffハイパースケープ山崎陽斗深層強化学習立木創太バンダイナムコ研究所ミライ小町テスラGameGANELYZAパックマンTesla BotTesla AI Dayソサエティ5.0ELYZA DIGESTSIGGRAPH 2020バズグラフニュースタンテキ東芝DIB-R倉田宜典3D音声合成韻律射影広告韻律転移

AIはどこまで言葉から物を思い描けるか? text to image AIの研究事例を考察する

2021.5.28先端技術

AIはどこまで言葉から物を思い描けるか? text to image AIの研究事例を考察する

現在の画像認識AIは、画像に写っているオブジェクトが何であるかを認識してキャプションを高精度に生成できます。こうした「画像からの文章(image to text)の生成」とは入出力が逆転する「文章からの画像(text to image)の生成」の研究も進んでいます。この記事ではtext to image AIの研究事例をまとめることを通して、人間の想像/創造力を工学的に再現する試みの到達地点を明らかにします。

幼児が描く棒人間のレベル

テック系メディアUS版MIT Technology Reviewは2020年9月、著名なAI研究機関であるAllen Institute for AI(通称「AI2」)が発表した文章から画像を生成するAIを解説する記事を公開しました。

文章から画像を生成するAIの研究は、汎用的人工知能(Artificial General Intelligence:AGI)の実現に大きく寄与すると考えられています。というのも、言葉から物の姿を描く機能の研究は、人間に固有な能力とされる想像力をもったAIの実現につながるからです。もっとも、文章から画像の生成は、その反対の生成処理より難易度が高くなります。画像からの文章の生成は言わば情報を圧縮するのに対して、文章からの画像の生成は情報を補完する必要があるからです。こうした情報の補完処理は「想像力を膨らませる」人間の能力と類比的に捉えられます。

Text to image AIを開発するにあたり、AI2は入力が文章で出力が画像である学習データを使ってAIを訓練しました。訓練されたAI「X-LXMERT」は、同機関が作ったデモサイトから実行できます。例えば、デモサイトのテキスト入力ボックスに「凧と木々(Kites and Trees)」というテキストを与えると、以下のような画像が表示されます。生成された画像は、残念ながら「凧と木々」と言われればそう見えるかも知れない程度の精細度であり、言わば幼児が描く棒人間と大差ないものです。

AI2作成(Computer Vision Explorer」より画像を引用)

AI2の研究員Jiasen Luは、X-LXMERTの開発は「ピースが欠けているパズルのようなもの」とその難しさを語っています。ちなみに同AIに関する論文によると、学習データの規模は画像が18万枚でそれに対応した文章の合計は918万センテンスでした。

DALL-Eのからくり

2021年1月、text to image AI研究で大きな飛躍がありました。言語AI「GPT-3」を開発したことで知られる研究機関Open AIが、画像生成AI「DALL-E」を発表しました。

DALL-Eは、例えば「アボカドのかたちをしたアームチェア(an armchair in the shape of an avocado)」というテキストを入力すると、以下のような説得力のある無数の画像を生成します。注目すべきは、以下の画像はおそらく学習データには含まれておらず、同AIが入力にしたがって新規に生成したと考えられるところです。これらの画像と前述のX-LXMERTが生成した画像を比べると、その精細度はまさに雲泥の差です。

【関連記事】CGへの扉 Vol.22:言葉から画像を生成、DALL-Eはクリエイティブなのか?

OpenAIブログ記事「DALL・E: Creating Images from Text」より画像を抜粋

2021年2月末、DALL-Eの内部処理を詳述した論文が発表されました。その論文によれば、同AIにはGPT-3にも使われているAIモデルTransformerが活用されていました。そして、大量の画像と文章がペアとなった学習データで訓練したうえで、画像生成時には同AIと同時に発表された画像認識AI「CLIP」を実行して、入力テキストが意味するオブジェクトが生成されたかどうかチェックしていました。こうしたアーキテクチャの基本構成はX-LXMERTと大差なく、まったく新規なアルゴリズムが使われているわけではなかったのです。

DALL-EとX-LXMERTの決定的な違いは、AIのパラメータ数と学習データ量です。前者のパラメータ数が120億に対して、後者は170万、学習データは前者が2億5,000万の画像と文章のペアを使ったのに対して、後者は画像が18万枚でそれに対応した文章が918万センテンスです。パラメータ数に関して前者は後者の約700倍、学習画像枚数では約1,400倍となります。

DALL-Eの成果から言えるのは、前例のないような画期的なアルゴリズムを発明しなくても、パラメータ数と学習データ量を増やせば、人間の想像力と類比的な能力を高精度で実現できることです。X-LXMERT開発時に露見した「ピースが欠けたジグソーパズル」は、学習データによって補完可能だったのです。

もっとも、AIモデルのパラメータ数と学習データ量を増やすのは決して簡単なことではありません。実際、DALL-Eの訓練にあたっては学習データの圧縮処理がなされており、大規模な学習を実行できるハードウェア環境の構築には高い技術力が要求されます。OpenAIにはパラメータ数が1,750億のGPT-3を開発した実績があったため、DALL-Eのような巨大AIモデルを実現できたのです。

AIは「トラのなかのジャングル」の夢を見るか

テキストから画像を生成するAIを開発するのが難しい原因のひとつとして、DALL-Eが生成したアームチェアの画像を見れば分かるように、ひとつのテキストから無数の画像を生成できることが指摘できます。こうした生成の多様性こそが、AIに人間の想像力を実装する端緒となると考えられます。

Google傘下のAI研究機関DeepMindは2021年5月、テキストから画像を生成する際の多様性それ自体を生成するAIに関する論文を発表しました。「生成の多様性自体を生成する」とは、単一のテキストからそのテキストの意味から逸脱しない範囲でさまざまな画像を生成できるように、生成アルゴリズム自体を変化させることを意味しています。こうした変化する生成アルゴリズムを、論文では「視覚化の文法」と呼んでいます。

「視覚化の文法」が意味していることは、絵画における作家性と類比的に捉えられます。(聖母マリアと幼児のキリストを描いた聖母子像のように)言葉で説明すれば同じモノを描いた絵画は無数にありますが、そのなかでも(ラファエロの『聖母子像』のように)とくに「美しい」ものや「ユニーク」なものには高い価値が与えられて芸術作品として継承されていきます。芸術作品とは、画家が類を見ない形でアイデアを視覚化したものと言えます。こうしたユニークな制作能力が視覚化の文法に該当します。

視覚化の文法を生成するAIを開発するにあたり、DeepMindの研究チームは以下のようなプロセスを実行しました。

  1. 手順1:テキストと画像のペアを学習したAIを開発する。
  2. 手順2:手順1のAIに遺伝的アルゴリズムを応用した画像生成アルゴリズムを実装する。
  3. 手順3:手順2のAIにテキストを入力として与え、画像生成アルゴリズム自体を進化させながら、テキストの意味と一致するような画像を生成させる。

以上のプロセスで注目すべきは、画像生成アルゴリズムを遺伝的アルゴリズムで進化させる点です。遺伝的アルゴリズムにはランダム性も組み込まれているため、同一のテキストを与えても、入力のたびに異なった出力画像が生成されます。それゆえ、同じ画像は1枚もないのです。論文には「トラのなかのジャングル(Jungle in the Tiger)」というシュールレアリスムを連想させるテキストから生成された画像事例が掲載されています。以下の画像は、「ジャングルのようなトラ」あるいは「トラのようなジャングル」に見えなくもありません。

DeepMind論文「Generative Art Using Neural Visual Grammars and Dual Encoders」より画像を引用

生成された画像が「ジャングル」や「トラ」の模倣にとどまらないのは、変化する生成アルゴリズムがGANのように学習済みの画像に似せようとしていないからです。論文では視覚化文法生成アルゴリズムが「記憶にもとづいた絵画」だとすれば、GANは「記憶にもとづいた写真」であるとその違いを説明しています。そして、生成過程が模倣にとどまらないからこそ、「トラのなかのジャングル」のようなナンセンスなテキストからトラやジャングルを連想させる絵柄を出力できたと考えられます。

視覚化文法生成AIは人間の画家における作家性に近いものを再現していますが、どの画像を自らの「作風」とするかを決定できません。無数にありえる視覚化文法のなかからひとつの作風を選択する能力は、人間に固有な創造性のひとつと言えそうです。

以上に紹介した生成系AIの進化は、今後も続くと見て間違いありません。そして、こうしたAIが進化するたびに制作行為におけるAIと人間の役割分担の再考が促され、さらには「人間の想像/創造力とは何か」という問いも投げかけられることでしょう。

Writer:吉本幸記

RELATED ARTICLE関連記事

AIに料理や楽器を教えてもらえる未来への一歩:月刊エンタメAIニュース vol.22

2021.10.21先端技術

AIに料理や楽器を教えてもらえる未来への一歩:月刊エンタメAIニュース vol....

【CEDEC2020】aiboの”賢さ”と”可愛さ”を作るAIの秘密

2020.10.21先端技術

【CEDEC2020】aiboの"賢さ"と"可愛さ"を作るAIの秘密

トイロボットが運ぶあそびと教育の器:田中章愛氏×森川幸人氏 対談

2020.1.20先端技術

トイロボットが運ぶあそびと教育の器:田中章愛氏×森川幸人氏 対談

RANKING注目の記事はこちら