モリカトロン株式会社運営「エンターテインメント×AI」の最新情報をお届けするサイトです。

TAG LIST
ディープラーニング機械学習CGCGへの扉安藤幸央GANニューラルネットワーク月刊エンタメAIニュース強化学習三宅陽一郎モリカトロンAIラボインタビュー敵対的生成ネットワーク音楽OpenAIQAスクウェア・エニックスシナリオNVIDIAデバッグCEDEC2019河合律子プロシージャルDeepMind人工知能学会FacebookキャラクターAIルールベースビヘイビア・ツリーGoogleCEDEC2020ゲームAI映画SIGGRAPH遺伝的アルゴリズム不完全情報ゲームメタAIナビゲーションAI畳み込みニューラルネットワーク深層学習マイクロソフトAIと倫理グーグルGDC 2021GDC 2019マルチエージェントVR森川幸人ボードゲーム自然言語処理ロボットStyleGAN自動生成GPT-3CNNVFXモリカトロンゲームプレイAIファッションHTN階層型タスクネットワークJSAI2020Microsoftイベントレポート水野勇太アニメーションガイスターNPCCLIPアートtoio吉本幸記JSAI2021スポーツディープフェイク汎用人工知能TensorFlowGDC SummerテストプレイeSportsBLUE PROTOCOL小説DALL-EStyleGAN2AlphaZeroカメラ環世界中島秀之懐ゲーから辿るゲームAI技術史研究DARPAドローンAI美空ひばり手塚治虫メタデータ通しプレイOpenAI Five本間翔太CM倫理ピクサーAdobe作曲中嶋謙互Amadeus CodeMicrosoft Azureキャリアeスポーツ音声認識PyTorchDQN眞鍋和子バンダイナムコスタジオシーマンUnity齊藤陽介マインクラフトお知らせAIアートサルでもわかる人工知能VAEUbisoftUbisoft La ForgeワークショップGenvid Technologies知識表現ウォッチドッグス レギオンIGDAどうぶつしょうぎジェイ・コウガミ音楽ストリーミングマシンラーニングクラウドコンピューティショナル・フォトグラフィーGPT-2完全情報ゲーム坂本洋典釜屋憲彦ウェイポイントパス検索藤澤仁生物学画像認識NFT長谷洋平鴫原盛之masumi toyota宮路洋一SIGGRAPH ASIAソニーCycleGANフェイクニュースシムピープルGPUALife人工生命オルタナティヴ・マシンサウンドスケープASBSマンガぱいどんTEZUKA2020ナビゲーションメッシュ松井俊浩スパーシャルAIElectronic ArtsマーケティングApex LegendsNinjaゲームTENTUPLAYMARVEL Future Fightタイムラプスバスキアブロックチェーン階層型強化学習WANN竹内将馬淵浩希岡島学映像セリア・ホデントUX認知科学ゲームデザインLUMINOUS ENGINELuminous Productionsパターン・ランゲージちょまどビッグデータアストロノーカ模倣学習ナラティブFPSマルコフ決定過程スタンフォード大学パラメータ設計テニスバランス調整レコメンドシステム対話型エージェント協調フィルタリング人狼知能Amazon軍事AlphaDogfight TrialsエージェントシミュレーションStarCraft IIFuture of Life InstituteIntelロボティクスLAIKARotomationドラゴンクエストライバルズ不確定ゲームDota 2モンテカルロ木探索ソーシャルゲームEmbeddingGTC2020NVIDIA MAXINE淡路滋ビデオ会議グリムノーツゴティエ・ボエダGautier Boeda階層的クラスタリングaiboJuliusSIETPRGバーチャル・ヒューマン・エージェントtoio SDK for Unityクーガー田中章愛石井敦銭起揚茂谷保伯MinecraftGDMC成沢理恵MITメディアラボ著作権マジック・リープMagic Leap OneMagendaノンファンジブルトークンDDSPサッカー里井大輝KaggleバスケットボールAssassin’s Creed OriginsSea of ThievesGEMS COMPANYmonoAI technologyアバター初音ミクOculus転移学習テストBaldur's Gate 3Candy Crush SagaSIGGRAPH ASIA 2020デバッギングBigGANMaterialGANリップシンキングRNNReBeL自動運転車VolvoRival Prakユービーアイソフト北尾まどかHALO将棋メタルギアソリッドVFSMナップサック問題汎用言語モデルSpotifyMITReplica StudioamuseChitrakar巡回セールスマン問題ジョルダン曲線5GMuZeroクラウドゲーミングRival Peak和田洋一リアリティ番組Stadiaジョンソン裕子MILEs対話エンジンインタラクティブ・ストリーミング斎藤由多加インタラクティブ・メディアリトル・コンピュータ・ピープルシーマン人工知能研究所Ludoゴブレット・ゴブラーズTransformerSIGGRAPH 2019ArtEmis絵画ARGROVERFAIRAIりんなチート検出オンラインカジノアップルRealFlowiPhoneシミュレーションDeep FluidsMeInGameAIGraphブレイン・コンピュータ・インタフェースBCILearning from Video予期知能ユクスキュルカント哲学ドラゴンクエストエージェントアーキテクチャPAIROCTOPATH TRAVELER西木康智OCTOPATH TRAVELER 大陸の覇者アルスエレクトロニカ2019StyleCLIPDeNAStyleRig逆転オセロニア奥村エルネスト純いただきストリート齋藤精一大森田不可止高橋智隆ロボユニザナック泉幸典仁井谷正充ロボコレ2019ぎゅわんぶらあ自己中心派Azure Machine Learning意思決定モデル脱出ゲームHybrid Reward ArchitectureウロチョロスSuper Phoenix理化学研究所Project Malmo教育TextWorldProject PaidiaProject LookoutWatch ForBingLEFT ALIVE長谷川誠ジミ・ヘンドリックスBaby Xカート・コバーンロバート・ダウニー・Jr.エイミー・ワインハウスMagentaYouTubeダフト・パンクSFGlenn MarshallThe Age of A.I.Story2HallucinationレコメンデーションJukeboxGTC2021テンセントSIFTDCGANMOBADANNCE人事ハーバード大学研修デューク大学mynet.aiローグライクゲームNetHack人工音声NeurIPS 2021はこだて未来大学プレイ動画ヒップホップサイレント映画NBA環境音現代アートエージェント粒子群最適化法進化差分法群知能下川大樹ウィル・ライト高津芳希シムシティ大石真史BEiTレベルデザインDETRSporeAIボイスアクターデノイズ南カリフォルニア大学画像処理NVIDIA CanvasSentropyCPUDiscordZorkCALMプログラミングソースコード生成GMAIシチズンデベロッパーTRPGGitHubウィザードリィMCN-AI連携モデルAI DungeonMCS-AI動的連携モデル西川善司並木幸介サムライスピリッツ森寅嘉ゼビウスSIGGRAPH 2021ストリートファイター半導体Topaz Video Enhance AI栗原聡DLSS山野辺一記NetEase大里飛鳥DynamixyzモーションキャプチャーU-Net13フェイズ構造アドベンチャーゲームADVXLandAGI手塚眞DEATH STRANDING不気味の谷Eric JohnsonOculus Questコジマプロダクション生体情報デシマエンジンインディーゲーム写真高橋ミレイ照明Maxim PeterJoshua Romoffハイパースケープ山崎陽斗深層強化学習立木創太CEDEC2021バンダイナムコ研究所ミライ小町GameGANパックマンソサエティ5.0SIGGRAPH 2020DIB-R3D広告

AIはどこまで言葉から物を思い描けるか? text to image AIの研究事例を考察する

2021.5.28先端技術

AIはどこまで言葉から物を思い描けるか? text to image AIの研究事例を考察する

現在の画像認識AIは、画像に写っているオブジェクトが何であるかを認識してキャプションを高精度に生成できます。こうした「画像からの文章(image to text)の生成」とは入出力が逆転する「文章からの画像(text to image)の生成」の研究も進んでいます。この記事ではtext to image AIの研究事例をまとめることを通して、人間の想像/創造力を工学的に再現する試みの到達地点を明らかにします。

幼児が描く棒人間のレベル

テック系メディアUS版MIT Technology Reviewは2020年9月、著名なAI研究機関であるAllen Institute for AI(通称「AI2」)が発表した文章から画像を生成するAIを解説する記事を公開しました。

文章から画像を生成するAIの研究は、汎用的人工知能(Artificial General Intelligence:AGI)の実現に大きく寄与すると考えられています。というのも、言葉から物の姿を描く機能の研究は、人間に固有な能力とされる想像力をもったAIの実現につながるからです。もっとも、文章から画像の生成は、その反対の生成処理より難易度が高くなります。画像からの文章の生成は言わば情報を圧縮するのに対して、文章からの画像の生成は情報を補完する必要があるからです。こうした情報の補完処理は「想像力を膨らませる」人間の能力と類比的に捉えられます。

Text to image AIを開発するにあたり、AI2は入力が文章で出力が画像である学習データを使ってAIを訓練しました。訓練されたAI「X-LXMERT」は、同機関が作ったデモサイトから実行できます。例えば、デモサイトのテキスト入力ボックスに「凧と木々(Kites and Trees)」というテキストを与えると、以下のような画像が表示されます。生成された画像は、残念ながら「凧と木々」と言われればそう見えるかも知れない程度の精細度であり、言わば幼児が描く棒人間と大差ないものです。

AI2作成(Computer Vision Explorer」より画像を引用)

AI2の研究員Jiasen Luは、X-LXMERTの開発は「ピースが欠けているパズルのようなもの」とその難しさを語っています。ちなみに同AIに関する論文によると、学習データの規模は画像が18万枚でそれに対応した文章の合計は918万センテンスでした。

DALL-Eのからくり

2021年1月、text to image AI研究で大きな飛躍がありました。言語AI「GPT-3」を開発したことで知られる研究機関Open AIが、画像生成AI「DALL-E」を発表しました。

DALL-Eは、例えば「アボカドのかたちをしたアームチェア(an armchair in the shape of an avocado)」というテキストを入力すると、以下のような説得力のある無数の画像を生成します。注目すべきは、以下の画像はおそらく学習データには含まれておらず、同AIが入力にしたがって新規に生成したと考えられるところです。これらの画像と前述のX-LXMERTが生成した画像を比べると、その精細度はまさに雲泥の差です。

【関連記事】CGへの扉 Vol.22:言葉から画像を生成、DALL-Eはクリエイティブなのか?

OpenAIブログ記事「DALL・E: Creating Images from Text」より画像を抜粋

2021年2月末、DALL-Eの内部処理を詳述した論文が発表されました。その論文によれば、同AIにはGPT-3にも使われているAIモデルTransformerが活用されていました。そして、大量の画像と文章がペアとなった学習データで訓練したうえで、画像生成時には同AIと同時に発表された画像認識AI「CLIP」を実行して、入力テキストが意味するオブジェクトが生成されたかどうかチェックしていました。こうしたアーキテクチャの基本構成はX-LXMERTと大差なく、まったく新規なアルゴリズムが使われているわけではなかったのです。

DALL-EとX-LXMERTの決定的な違いは、AIのパラメータ数と学習データ量です。前者のパラメータ数が120億に対して、後者は170万、学習データは前者が2億5,000万の画像と文章のペアを使ったのに対して、後者は画像が18万枚でそれに対応した文章が918万センテンスです。パラメータ数に関して前者は後者の約700倍、学習画像枚数では約1,400倍となります。

DALL-Eの成果から言えるのは、前例のないような画期的なアルゴリズムを発明しなくても、パラメータ数と学習データ量を増やせば、人間の想像力と類比的な能力を高精度で実現できることです。X-LXMERT開発時に露見した「ピースが欠けたジグソーパズル」は、学習データによって補完可能だったのです。

もっとも、AIモデルのパラメータ数と学習データ量を増やすのは決して簡単なことではありません。実際、DALL-Eの訓練にあたっては学習データの圧縮処理がなされており、大規模な学習を実行できるハードウェア環境の構築には高い技術力が要求されます。OpenAIにはパラメータ数が1,750億のGPT-3を開発した実績があったため、DALL-Eのような巨大AIモデルを実現できたのです。

AIは「トラのなかのジャングル」の夢を見るか

テキストから画像を生成するAIを開発するのが難しい原因のひとつとして、DALL-Eが生成したアームチェアの画像を見れば分かるように、ひとつのテキストから無数の画像を生成できることが指摘できます。こうした生成の多様性こそが、AIに人間の想像力を実装する端緒となると考えられます。

Google傘下のAI研究機関DeepMindは2021年5月、テキストから画像を生成する際の多様性それ自体を生成するAIに関する論文を発表しました。「生成の多様性自体を生成する」とは、単一のテキストからそのテキストの意味から逸脱しない範囲でさまざまな画像を生成できるように、生成アルゴリズム自体を変化させることを意味しています。こうした変化する生成アルゴリズムを、論文では「視覚化の文法」と呼んでいます。

「視覚化の文法」が意味していることは、絵画における作家性と類比的に捉えられます。(聖母マリアと幼児のキリストを描いた聖母子像のように)言葉で説明すれば同じモノを描いた絵画は無数にありますが、そのなかでも(ラファエロの『聖母子像』のように)とくに「美しい」ものや「ユニーク」なものには高い価値が与えられて芸術作品として継承されていきます。芸術作品とは、画家が類を見ない形でアイデアを視覚化したものと言えます。こうしたユニークな制作能力が視覚化の文法に該当します。

視覚化の文法を生成するAIを開発するにあたり、DeepMindの研究チームは以下のようなプロセスを実行しました。

  1. 手順1:テキストと画像のペアを学習したAIを開発する。
  2. 手順2:手順1のAIに遺伝的アルゴリズムを応用した画像生成アルゴリズムを実装する。
  3. 手順3:手順2のAIにテキストを入力として与え、画像生成アルゴリズム自体を進化させながら、テキストの意味と一致するような画像を生成させる。

以上のプロセスで注目すべきは、画像生成アルゴリズムを遺伝的アルゴリズムで進化させる点です。遺伝的アルゴリズムにはランダム性も組み込まれているため、同一のテキストを与えても、入力のたびに異なった出力画像が生成されます。それゆえ、同じ画像は1枚もないのです。論文には「トラのなかのジャングル(Jungle in the Tiger)」というシュールレアリスムを連想させるテキストから生成された画像事例が掲載されています。以下の画像は、「ジャングルのようなトラ」あるいは「トラのようなジャングル」に見えなくもありません。

DeepMind論文「Generative Art Using Neural Visual Grammars and Dual Encoders」より画像を引用

生成された画像が「ジャングル」や「トラ」の模倣にとどまらないのは、変化する生成アルゴリズムがGANのように学習済みの画像に似せようとしていないからです。論文では視覚化文法生成アルゴリズムが「記憶にもとづいた絵画」だとすれば、GANは「記憶にもとづいた写真」であるとその違いを説明しています。そして、生成過程が模倣にとどまらないからこそ、「トラのなかのジャングル」のようなナンセンスなテキストからトラやジャングルを連想させる絵柄を出力できたと考えられます。

視覚化文法生成AIは人間の画家における作家性に近いものを再現していますが、どの画像を自らの「作風」とするかを決定できません。無数にありえる視覚化文法のなかからひとつの作風を選択する能力は、人間に固有な創造性のひとつと言えそうです。

以上に紹介した生成系AIの進化は、今後も続くと見て間違いありません。そして、こうしたAIが進化するたびに制作行為におけるAIと人間の役割分担の再考が促され、さらには「人間の想像/創造力とは何か」という問いも投げかけられることでしょう。

Writer:吉本幸記

RELATED ARTICLE関連記事

トイロボットが運ぶあそびと教育の器:田中章愛氏×森川幸人氏 対談

2020.1.20先端技術

トイロボットが運ぶあそびと教育の器:田中章愛氏×森川幸人氏 対談

プレイ動画から新規ステージを自動生成:月刊エンタメAIニュース vol.2

2020.2.26先端技術

プレイ動画から新規ステージを自動生成:月刊エンタメAIニュース vol.2

ゲームプレイAI が進化させる無人戦闘機群とAI軍拡競争の萌芽

2020.9.28先端技術

ゲームプレイAI が進化させる無人戦闘機群とAI軍拡競争の萌芽

RANKING注目の記事はこちら