モリカトロン株式会社運営「エンターテインメント×AI」の最新情報をお届けするサイトです。

TAG LIST
CG機械学習ディープラーニングCGへの扉安藤幸央GAN月刊エンタメAIニュースニューラルネットワーク河合律子NVIDIA強化学習三宅陽一郎OpenAI音楽FacebookQAスクウェア・エニックスモリカトロンAIラボインタビュー敵対的生成ネットワーク森川幸人ルールベースDeepMindキャラクターAIシナリオNFTGPT-3デバッグCEDEC2019StyleGANプロシージャル自動生成人工知能学会映画遺伝的アルゴリズムメタAI自然言語処理深層学習マイクロソフトビヘイビア・ツリー吉本幸記GoogleCEDEC2021CEDEC2020ゲームAISIGGRAPH不完全情報ゲームVRナビゲーションAI畳み込みニューラルネットワークAIと倫理アートグーグルディープフェイクGDC 2021大内孝子VFXメタバースGDC 2019マルチエージェントゲームプレイAIボードゲームNPCDALL-ECLIPロボットCNNデジタルツインモリカトロンUnityファッションHTN階層型タスクネットワークJSAI2020TensorFlowMicrosoftイベントレポートテストプレイAIアート水野勇太小説アニメーションガイスターStyleGAN2懐ゲーから辿るゲームAI技術史toioJSAI2021スポーツ研究シムピープル汎用人工知能GDC Summerバーチャルヒューマンブロックチェーン倫理AdobeアストロノーカNVIDIA Omniverseeスポーツ対話型エージェントAmazoneSportsBLUE PROTOCOLシーマンUbisoftAlphaZeroTransformerGPT-2カメラ環世界中島秀之鴫原盛之ソニーDARPAドローンシムシティAI美空ひばり手塚治虫Electronic ArtsメタデータLEFT 4 DEAD通しプレイOpenAI Five本間翔太CMピクサーBERTプラチナエッグイーサリアム作曲ビッグデータ中嶋謙互Amadeus CodeMicrosoft AzureキャリアナラティブOmniverse ReplicatorレコメンドシステムNVIDIA DRIVE SimNVIDIA Isaac Simサイバーエージェント音声認識ロボティクスPyTorchDQN眞鍋和子バンダイナムコスタジオMinecraft齊藤陽介マインクラフトお知らせチャットボットアバターサルでもわかる人工知能VAEOmniverseUbisoft La Forge自動運転車ワークショップGenvid Technologiesメタ知識表現ウォッチドッグス レギオンIGDAどうぶつしょうぎEpic Gamesジェイ・コウガミ音楽ストリーミングマシンラーニング画像生成テキスト画像生成クラウド対話エンジン斎藤由多加リトル・コンピュータ・ピープルコンピューティショナル・フォトグラフィーゴブレット・ゴブラーズ絵画AIりんなシミュレーション完全情報ゲーム坂本洋典釜屋憲彦ウェイポイントパス検索藤澤仁生物学GTC 2022画像認識GTC2022StyleCLIPDeNA長谷洋平masumi toyota宮路洋一OpenSeaGDC 2022教育TextWorldSIGGRAPH ASIADALL-E2GTC2021CycleGANNetHackフェイクニュースエージェントAIボイスアクターNVIDIA CanvasGPUALifeZork人工生命オルタナティヴ・マシンサウンドスケープMCS-AI動的連携モデルASBSマンガモーションキャプチャーぱいどんTEZUKA2020ナビゲーションメッシュ松井俊浩バンダイナムコ研究所スパーシャルAIELYZAELYZA DIGEST3D音声合成マーケティングApex LegendsELIZANinjaコンピュータRPGアップルタウン物語KELDICメロディ言語ゲームTENTUPLAYMARVEL Future FightAstroタイムラプスEgo4Dインタビューバスキア日経イノベーション・ラボ敵対的強化学習階層型強化学習GOSU Data LabWANNGOSU Voice Assistant竹内将SenpAI.GGMobalytics馬淵浩希Cygames岡島学AWS Sagemaker映像セリア・ホデント形態素解析UXAWS Lambda誤字検出認知科学ゲームデザインSentencePieceLUMINOUS ENGINELuminous Productionsパターン・ランゲージ竹村也哉ちょまどボエダ・ゴティエGOAPAdobe MAX 2021模倣学習Omniverse AvatarFPSNVIDIA Rivaマルコフ決定過程NVIDIA MegatronNVIDIA Merlinスタンフォード大学NVIDIA Metropolisパラメータ設計テニスバランス調整協調フィルタリング人狼知能テキサス大学軍事AlphaDogfight TrialsAI Messenger VoicebotエージェントシミュレーションOpenAI CodexStarCraft IIHyperStyleFuture of Life InstituteRendering with StyleIntelDisneyLAIKADisneyリサーチRotomationGauGANGauGAN2ドラゴンクエストライバルズ画像言語表現モデル不確定ゲームSIGGRAPH ASIA 2021Dota 2モンテカルロ木探索ディズニーリサーチMitsuba2ソーシャルゲームEmbeddingワイツマン科学研究所GTC2020CG衣装NVIDIA MAXINEVRファッション淡路滋ビデオ会議ArtflowグリムノーツEponymゴティエ・ボエダ音声クローニングGautier Boeda階層的クラスタリングGopheraibo合成音声JuliusSIE鑑定TPRGOxia Palusバーチャル・ヒューマン・エージェントtoio SDK for UnityArt Recognitionクーガー田中章愛Meta石井敦銭起揚NHC 2021茂谷保伯池田利夫GDMC新刊案内マーベル・シネマティック・ユニバース成沢理恵MITメディアラボMCU著作権アベンジャーズマジック・リープDigital DomainMagic Leap OneMagendaMasquerade2.0ノンファンジブルトークンDDSPフェイシャルキャプチャーサッカーモリカトロン開発者インタビュー里井大輝Kaggle宮本茂則バスケットボール山田暉Assassin’s Creed OriginsAI会話ジェネレーターSea of ThievesGEMS COMPANYmonoAI technologyLSTMモリカトロンAIソリューション初音ミクOculusコード生成AI転移学習テストAlphaCodeBaldur's Gate 3CodeforcesCandy Crush Saga自己増強型AISIGGRAPH ASIA 2020COLMAPADOPデバッギングBigGANGANverse3DMaterialGANリップシンキングRNNグランツーリスモSPORTReBeLグランツーリスモ・ソフィーGTソフィーVolvoFIAグランツーリスモチャンピオンシップRival PrakDGX A100VTuberユービーアイソフトWebcam VTuber星新一賞北尾まどかHALO市場分析将棋メタルギアソリッドVフォートナイトFSMRobloxナップサック問題Live Nation汎用言語モデルWeb3.0AIOpsSpotifyMITスマートコントラクトReplica StudioAWSamuseChitrakarQosmo巡回セールスマン問題徳井直生ジョルダン曲線メディア5GMuZero政治クラウドゲーミングRival Peakがんばれ森川君2号和田洋一リアリティ番組Stadiaジョンソン裕子MILEsNightCafeインタラクティブ・ストリーミングLuis Ruizインタラクティブ・メディアポケモンCodexシーマン人工知能研究所東京工業大学Ludo博報堂ラップSIGGRAPH 2019ArtEmisZ世代AIラッパーシステムARrinnaGROVERプラスリンクス ~キミと繋がる想い~FAIRSTCチート検出Style Transfer ConversationオンラインカジノRCPアップルRealFlowRinna Character PlatformiPhoneデジタルヒューマンDeep FluidsSoul MachinesMeInGameAmeliaAIGraphブレイン・コンピュータ・インタフェースバーチャルキャラクターBCIGateboxLearning from VideoANIMAK予期知能逢妻ヒカリセコムユクスキュルバーチャル警備システムカント損保ジャパン哲学対談上原利之ドラゴンクエストエージェントアーキテクチャアッパーグラウンドPAIROCTOPATH TRAVELER西木康智OCTOPATH TRAVELER 大陸の覇者Siemensアルスエレクトロニカ2019品質保証StyleRigAutodesk逆転オセロニアBentley Systemsワールドシミュレーター奥村エルネスト純いただきストリートH100齋藤精一大森田不可止COBOL高橋智隆DGX H100ロボユニザナックDGX SuperPOD泉幸典仁井谷正充クラウドコンピューティングロボコレ2019Instant NeRFartonomousbitGANsぎゅわんぶらあ自己中心派Azure Machine Learning意思決定モデル脱出ゲームHybrid Reward Architectureコミュニティ管理ウロチョロスSuper PhoenixSNS理化学研究所Project Malmoオンラインゲーム気候変動Project PaidiaEarth-2Project Lookoutマックス・プランク気象研究所Watch Forビョルン・スティーブンスBing気象モデルLEFT ALIVE気象シミュレーション長谷川誠ジミ・ヘンドリックス環境問題Baby Xカート・コバーンエコロジーロバート・ダウニー・Jr.エイミー・ワインハウスSDGsMagentaYouTubeダフト・パンクメモリスタSFGlenn MarshallELYZA PencilThe Age of A.I.Story2Hallucination音声変換レコメンデーションJukebox松尾豊Veap JapanEAPテンセントSIFT福井千春DCGAN医療MOBADANNCEメンタルケア人事ハーバード大学Edgar Handy研修デューク大学Netflixデータマイニングmynet.aiローグライクゲーム東京大学東京理科大学人工音声NeurIPS 2021産業技術総合研究所はこだて未来大学リザバーコンピューティングプレイ動画ヒップホップキャラクターモーションソニーマーケティングサイレント映画もじぱNBA環境音暗号通貨現代アートFUZZLEAlteration粒子群最適化法RPG進化差分法オープンワールド群知能下川大樹AIFAウィル・ライト高津芳希P2E大石真史SIGGRAPH 2022BEiTStyleGAN-NADAレベルデザインDETRゲームエンジンSporeUnreal Engineデノイズ南カリフォルニア大学Unity for Industry画像処理SentropyCPUDiscordCALMプログラミングソースコード生成GMAIシチズンデベロッパーTRPGGitHubウィザードリィMCN-AI連携モデルAI Dungeon西川善司並木幸介サムライスピリッツ森寅嘉ゼビウスSIGGRAPH 2021ストリートファイター半導体Topaz Video Enhance AI栗原聡DLSS山野辺一記NetEase大里飛鳥DynamixyzU-Net13フェイズ構造アドベンチャーゲームADVXLandAGI手塚眞DEATH STRANDING不気味の谷Eric JohnsonOculus Questコジマプロダクション生体情報デシマエンジンインディーゲーム写真高橋ミレイ照明Maxim PeterJoshua Romoffハイパースケープ山崎陽斗深層強化学習立木創太ミライ小町テスラGameGANパックマンTesla BotTesla AI Dayソサエティ5.0SIGGRAPH 2020バズグラフニュースタンテキ東芝DIB-R倉田宜典韻律射影広告韻律転移

CGへの扉 Vol.28:定番手法の他分野応用、自然言語処理AI由来の画像処理AI

2021.7.16アート

CGへの扉 Vol.28:定番手法の他分野応用、自然言語処理AI由来の画像処理AI

そもそも「応用」とは何か?

あるテクノロジーを対象に「応用すべき」とか「応用の余地がある」などと言いますが、実際のところ「応用」とは何を示すのでしょう。もちろん目も覚めるような今までに無かった新テクノロジーは魅力的ですが、世の中のテクノロジーすべてがそのような新規性の塊ではありません。実用化されているさまざまなテクノロジーは「応用」の賜物であり、原理や知識を現実的な事柄、または他分野の事柄にあてはめて利用することを一般的に「応用」と呼んでいます。

○○シェアやサブスクリプション(定期購買)といった、最近の流行りで新しいと思えるサービスも、実は他分野からすれば古くからあったサービス形態かもしれません。例えば一般の仕事場に設置し、100円入れると1個好きな時に自由にお菓子を持っていける「オフィスグリコ」も「富山の薬売り」のビジネスモデルを模倣したものです。

富山の薬売りは家庭用常備薬のつまった箱を個人の家に置いていき、その時点では費用はかからず、次に来た時に使った薬の分だけの費用を徴収するという仕組みです。もちろん、人工知能研究の多くのブレイクスルーも、脳の原理や仕組みを参考にコンピュータ上のアルゴリズムにあてはめ、それらが成果となって、現在のAI研究、AI実装が広がっています。

CGへの扉 Vol.22:言葉から画像を生成、DALL-Eはクリエイティブなのか?」でも取り上げた OpenAI社の GPT-3 も、その前身となる GPT-2 は自然言語処理のモデルとして文章生成に長けた用途で注目を浴び、画像生成に応用したことで、さらに大きな注目を集めました。GPT-2 の画像応用例のひとつであるImageGPTでは画像の半分を用意すれば、残りの半分を AI が補ってくれるというわかりやすい応用例が示されたことも話題性のひとつでした。

ソースコード共有サービス GitHub が大量のソースコードから学習し、プログラミング中のソースコードに適切なコメント文とソースコードの最初の部分を書き始めると、続きの適切なソースコードを補完してくれるサービス “GitHub Copilot” を発表しました。Copilotの内部実装や学習モデルがどうなっているのかは不明ですが、Copilotの開発には GPT-2,3 の OpenAI社が関係しており、ソースコード用途に特化した、GPT-2,3の応用例とも言える、仕組みやアプローチも似通ったものではないかと予想されます。

CLIPDraw:事前学習の必要がない、文章から画像を描く仕組み

文章から画像生成 CLIPDrawの描画例

論文:https://arxiv.org/pdf/2106.14843.pdf
ソースコード:https://colab.research.google.com/github/kvfrans/clipdraw/blob/main/clipdraw.ipynb
論文の筆頭著者 Kevin Frans氏による解説:https://kvfrans.com/clipdraw-exploring-text-to-drawing-synthesis/

論文の筆頭著者 Kevin Frans氏によるストロークの繰り返しの説明動画

CLIPDrawは、クロスコンパス社、米国マサチューセッツ工科大学、東京工業大学、東京大学の共同研究チームによる、事前学習を必要とせずに文章から絵を描くAI活用のアルゴリズムです。人間は言葉による豊かな風景描写、状況説明に長けており、文章だけで構成される小説を読んで、そこで描かれている風景をとても具体的に想像したり、また逆に一度見ただけの風景や状況を言葉で人に伝えることができたりします。言葉から描画したり、描画したものを言葉で説明したり、まったく同じ、完璧な再現は無理かもしれませんが、言葉と描くものとが人間の理解する仕組みの中で、重要な役目を果たしているのは確かです。

CLIPDraw は OpenAI社から公開されているCLIPをベースとしています。CLIPでは事前の学習なしで、写真画像の説明として適切なものを単語1つまたは数語の言葉からパラメータ評価することができました。CLIPDrawでは勾配降下法を用い、最初はまったくランダムな描画から始まり、ストローク(描画の軌跡)を変化させつつ描いた画像をCLIPで評価し、評価が高いものに合わせるよう描く線のパラメータを微調整します。その描画と評価を数百回繰り返すという反復的な方法を用い、文章に書かれた内容を理解したかのような絵を描いていくことができます。

CLIPDrawで文章から描画を繰り返し調整していく流れ

CLIPDrawではさらに、形や雰囲気といった描き方に加えて「スタイル」という要素もあわせ持っています。例えば指定の言葉の中に「3Dレンダリング」などの言葉を含めると、CGで作られたワイヤーフレーム画像のような、それっぽい画像が生成されるそうです。

CLIPDrawで描かれた様々な説明文による猫。一番右は「3Dワイヤーフレームモデルの猫」

正直200回から500回も繰り返して最適化された描画も、確かに猫や馬、飛行機などとギリギリ読み取れるくらいの絵で、子どもの落書き程度にしか見えません。けれども子供の落書きも数か月、数年の成長で驚くほど精彩で正確なものに、時には芸術性が評価されるようなものにまで進化することを考えると、AIが描画の腕を磨く過程は、これから見逃せないものになるのかもしれません。

CLIPDrawを使い、さまざまな言葉を与えてAIに描かせることで、人間でさえも表現が難しい、AIが導き出した「幸福」や「不幸」といった表現しづらい概念を、どう絵で表現できるかにも興味が湧いてくることでしょう。

BEiTの登場。画像処理版のBERT

1枚の画像に複数のオブジェクトが写っている場合も、分離して示すことができる

論文:https://arxiv.org/pdf/2106.08254.pdf

BEiT(Bidirectional Encoder representation from Image Transformers)は Microsoft Researchの研究で、自然言語処理で注目を浴びているBERT(Bidirectional Encoder Representations from Transformers)の考え方を画像に応用したものです。

BERTの特徴である、自己教師あり事前学習モデルの利点を、画像処理にも活かしたのが BEiT です。機械学習の学習データとして用いられる「教師ありデータ」とは、人間が目視と手動で判別ラベルをつけたデータのことで、この種のデータを膨大に事前学習して機械学習の精度を高めます。しかしこの手法の場合人間が判別したラベルに間違いが含まれる場合があることと、正確なデータを膨大とも言える必要な量を用意することが困難なため、AIの実用においておおきな課題になっていました。

BERTを既存研究と比較した時のブレイクスルーは、自己教師学習を可能にした点です。これは言葉通り、自分自身を教師として学ぶことができる仕組みです。例えば、ある単語の次に出現する頻度の高い単語を学習するには、大量の文章データから事前にAI自身が文章の中から単語が欠けた問題と正しい文章を参照した正答を用意し、人の手を借りずとも、大量に学習していける点にあります。

これと同じ考えで、画像処理においてもわざと画像の一部を欠けさせたり、画像の解像度を落とした問題を作り、元画像を正答とすることで、画像処理においても自己教師あり事前学習モデルを実現させることができると考えられます。ところが定型文や言い回しがある程度決まっている文章とは異なり、画像の場合は一部が欠けていても、その穴を埋める画像は無限に存在することが考えられます。

BEiTが行なったアプローチは MIM(Masked Image Modeling)と呼ばれる事前学習の方法です。これは学習対象となる画像を画素ごとに16×16ピクセルサイズのグリッド分割したものと、画像の特徴点を数字(Visual Token)で表現するTokenizerと数字(Visual Token)から画像に戻すDecoderを組み合わせます。画像の一部がランダムに欠けたものから元のVisual Tokenが得られるよう学習を繰り返すことで画像処理においても自己教師あり事前学習モデルを実現しています。ちなみに論文によるとVisual Tokenの生成手法は、OpenAIのDALL-E で使われている手法が応用しているもよう。

Facebook DETR 自然言語処理の手法を応用した物体検出

Facebook DETRによって検知された物体。100%の精度で象とシマウマが検出されている

論文:https://arxiv.org/pdf/2005.12872.pdf
Facebook AI の紹介ページ:https://ai.facebook.com/blog/end-to-end-object-detection-with-transformers/
ソースコード:https://github.com/facebookresearch/detr
解説動画:https://www.youtube.com/watch?v=T35ba_VXkMY

Facebook のAI研究チームが発表した2020年5月に発表した物体検出モデルDETRも、自然言語処理の方法を応用したものです。DETRは従来手法よりも高速化された手法で、ある物体の近くには、一緒にある物体が存在する可能性が高いといった文脈を理解して物体検知するのも特徴です。自然言語処理(NLP:Natural Language Processing)の世界のブレイクスルーであった Transformer モデルを物体検出に応用した事例です。

従来型の手法に比べ、Transformerの利点の一つに並列処理が可能な点があります。けれども画像検出にまつわる処理も逐次型のため、この Transformer の利点が活かしにくい分野ではありました。従来型の画像検出の手順としては、画像から物体を検出し、その後に何が写っているのかを分類し段階的に判別する必要がありました。

DETRでは画像から物体を場所と大きさを検知するとともに、画像に写っている物体同士の関係性を利用し、つながりのあるデータ群だと考えることによって Transformer の並列処理の利点を享受できるようになりました。例えばある写真に猫が写っているとすると、もうひとつ同じくらいの物体が存在すれば、それがもう一匹の猫である可能性が高く、猫よりも大きな物体が存在すれば、それは飼い主である人間が写っている可能性が高いといった写真ならではの関係性です。

DERTの推論の流れ

まずは元となる画像を CNN(Convolutional Neural Network) に入力します。これによって特徴マップが生成されます。そこで生成された特徴マップを Transformer encoder-decoder に入力します。そうすると画像に写っているオブジェクトの個数、位置、サイズといった情報が得られます。得られた結果から “no object” となる物体として認識されなかったものを除外すると、画像全体の物体検出が完了します。

これからのAIの応用と成熟

元任天堂のゲーム開発者、横井軍平氏の著書『横井軍平ゲーム館』には「枯れた技術の水平思考」という考え方について書かれています。これは、すでに広く使われ、メリットやデメリットが明らかになっている技術をさまざまな分野に応用することで、今までになかったような使い道を生み出し、安価で安定した最大限の成果を得るという考え方です。決して古い技術を誉めたたえようという意味ではありません。

エンジニア気質が強い人や、研究志向の人であれば、常に最新技術を追い求め、独自性やオリジナリティを重視する状況もあるかもしれません。けれども今回紹介したテクノロジーや、人工知能の世界で話題になるテクノロジーは、何も目新しいものばかりではなく、旧来からあるテクノロジーを応用し、圧倒的な物量で驚くべき応用と成果を導き出していることが見受けられます。

また既存技術の組み合わせによって、あらたな応用例や現実的な用途に役立つ道筋を見出しているものも注目されています。そう考えると、これから話題になるであろう人工知能を応用するためのヒントは、そこここに転がっているのだと考えられるかもしれません。

本連載の今後の予定:「CGへの扉」では、単なるAIの話題とは少し異なり、CG/VFX, アートの文脈から話題を切り取り紹介していきます。映像制作の現場におけるAI活用や、AIで価値が高まった先進的なツール、これからの可能性を感じさせるような話題、テクノロジーの話題にご期待ください。何か取り上げて欲しいテーマやご希望などがございましたら、ぜひ編集部までお知らせください。

CGへの扉

Vol.27:眼に追いつけ追い越せ? カメラは機械学習により進化

Vol.26:アートを加速させるAIの役割 #GTC2021 レポート

Vol.25:変幻自在の顔も実は人工知能

Vol.24:自然現象もすべて人工知能で再現する時代

Vol.23:AIで人の眼に進化するカメラ

Vol.22:言葉から画像を生成、DALL-Eはクリエイティブなのか?

Vol.21:人工知能+3DCGの最新論文をまとめて紹介 #SIGGRAPHAsia2020

Vol.20:Adobeと人工知能の将来を見極める #AdobeMAX2020

Vol.19:コミュニケーションツールの新境地「NVIDIA MAXINE」

Vol.18:SIGGRAPH2020レポート 映像制作の現場で活躍する人工知能

Vol.17:描画を進化させるTensorFlow Graphicsの真価

Vol.16:バーチャル開催SIGGRAPH論文を先取り

≫≫すべてのバックナンバーはこちらから

Contributor:安藤幸央

RELATED ARTICLE関連記事

CGへの扉 Vol.12:AIのおかげで映像の拡大やノイズ除去が高品質に

2020.3.12アート

CGへの扉 Vol.12:AIのおかげで映像の拡大やノイズ除去が高品質に

CGへの扉 Vol.10:老齢とは無縁、De-Aging技術の台頭

2020.1.15アート

CGへの扉 Vol.10:老齢とは無縁、De-Aging技術の台頭

CGへの扉 Vol.37:NVIDIA GTC 2022 レポート/アートとAIの視点で

2022.4.15アート

CGへの扉 Vol.37:NVIDIA GTC 2022 レポート/アートとAI...

RANKING注目の記事はこちら