囲碁の要領でAIがプロセッサを作る時代：月刊エンタメAIニュース vol.20

2021.8.24先端技術

エンタメにおいても人工知能は日進月歩で進歩しており、新しい研究成果や試みが次々と発表されています。こちらの連載では、過去1か月間、主に海外で公開された注目すべきゲームAIやエンタメAIに関連したニュース、論文などを紹介していきます。

AIは画像の奥行きをどこまで把握できるか

人間は写真や絵画といった2次元の画像からでも、画像内に写る物体のサイズや位置を比較することで、あたかもそれらが3次元空間に存在するかのように奥行きを認知できます。この空間把握能力を高精度でAIに学習させるのが、深度推定という研究分野の目的です。車の自動運転や物資の自動運搬、ロボット掃除機の制御など、幅広く活用されている技術です。

サイモンフレイザー大学とアドビリサーチの合同研究チームは、Conference on Computer Vision and Pattern Recognition（CVPR 2021、コンピュータビジョンおよびパターン認識カンファレンス）にて、単眼深度推定（Monocular Depth Estimation）の改良モデルを発表しました。

単眼深度推定とは、複眼の情報で距離を推定する動物の視覚とは異なり、文字通りひとつのカメラ視点だけで距離を推定する技術を指します。近年、ディープラーニングで写真や動画を学習させることで高精細な深度マップの推定が可能になりました。レーザー照射によって対象までの距離を測定するLiDARや距離画像センサーと比べて、より低コストかつ高精度での実用化が期待されています。

しかし、従来の深度推定モデルでは1メガピクセルを超える精細な深度マップの推定は困難で、実用面で課題が残っていました。今回の改良モデルは、インプット画像の解像度と写像の構造が深度推定の精度におよぼす影響にフォーカスしています。単純にインプット画像が高解像度なら深度推定の精度が上がるわけではなく、画像の種類によってはまったく逆効果となるからです。そこで低解像度と高解像度の両方から推定した深度マップをマージさせる「二重推定」によって、最終的な精度を底上げしたというのが論文の要点です。

論文：Boosting Monocular Depth Estimation Models to High-Resolution via Content-Adaptive Multi-Resolution Merging

AIプログラマーの誕生に向けた第一歩

人工知能の研究を目的とした非営利団体OpenAIは8月10日、自然言語をプログラミング言語へと変換するAIモデル「OpenAI Codex」の改良バージョンを、フリーAPIとして限定的に公開しました。

「OpenAI Codex」は、OpenAIがGitHubと共同開発したプログラミング言語用の入力補完ツール「GitHub Copilot」を改良したAIモデルで、Python、JavaScript、Go、Perl、PHP、Ruby、Swift、TypeScript、シェルスクリプトをふくむ幅広いプログラミング言語に対応しています。人間の自然言語にくわえて、GitHubリポジトリのような公開情報から数十億のソースコードを学習させたGPT-3（OpenAIの自然言語処理モデル）の派生型です。

一般的にプログラミングという行為は、解決したい問題を複数の小さな問題へ分解し、それらをライブラリやAPI、関数といった既存のコードへとマッピングする作業です。人間にとってもっともハードルが高いのは後半の部分で、プログラマーの経験や技量に大きく依存しています。そこをAIに代行させようというのが「OpenAI Codex」の目指すところです。

実用レベルに到達するまでは人間の熟練プログラマーが自分でプログラミングした方が効率的かもしれませんが、将来的には人間が絶対に思いつかないような方法であらゆるソースコードを使いこなすAIプログラマーの誕生も期待できます。

AIが自分の脳みそを自分で開発する未来

近年、半導体メーカーがチップ開発にAIツールを導入する動きが加速しています。マイクロプロセッサの基盤には数十億個ものトランジスタが敷き詰められており、その設計プロセスは極めて複雑かつ難解です。職人レベルのエンジニアでも、新しいチップを設計するには数週間を要すると言われています。そうした設計プロセスを強化学習でAIに訓練させることで、コンポーネントの配置や配線の方法を記したチップの設計図を自動で作成できるようにしようというのです。

今年6月にグーグルが発表した研究論文によると、同社のAIモデルを訓練するために使われているTPU（Tensor Processing Unit）の構成は、AIが自ら決定しているといいます。たとえるなら、AIが自分の脳みそを自分で設計しているようなものです。これにより、いままで数週間を要してきた設計作業をわずか数時間に短縮できます。

ほかにもNVIDIAやIBM、サムスンといった世界の大手半導体メーカーが、続々と自社のチップ開発にAIツールを導入し始めています。なかでもグラフィックボードの主力メーカーであるNVIDIAは、機械学習に必要な高性能チップの重要性にいち早く着目した企業でした。こうした支援ツールの導入は、チップ開発の劇的な速度向上のみならず、チップの性能と信頼性の向上にもつながっていると報告されています。

無数の組み合わせから最適解を模索するという意味では、チップ設計におけるトランジスタの配置は、囲碁の盤面に石を置く作業に似ているかもしれません。そう考えれば、強化学習アルゴリズムの登場によって囲碁で人間を凌駕したAIが、複雑で難解極まりないプロセッサの設計図作りに役立つのは至極自然な流れといえるでしょう。

論文：A graph placement methodology for fast chip design

ゲームのリマスター版をAIが開発する可能性

ビデオゲームのリマスター版をほとんど全部AIが作ってくれる日も、そう遠くない未来に訪れるかもしれません。「Topaz Video Enhance AI」のようなディープラーニングを使ったAIアップスケーリング技術の普及によって、動画のリマスタリングはマシンスペックさえ満たしていればもはや誰にでもできる時代です。

AIアップスケーリングとは、本当は存在しない画素をAIが類推で補完することで、低解像度の画像や動画を高解像度へと変換する技術です。欧州のゲームメディアEurogamerのチャンネルDigital FoundryがYouTubeで公開した「Topaz Video Enhance AI」のデモンストレーション動画では、2000年のE3（Electronic Entertainment Expo、毎年6月にロサンゼルスで開催される世界最大のゲーム見本市）で披露された「METAL GEAR SOLID 2: SONS OF LIBERTY」のトレイラーを4K映像にアップスケーリングする様子が確認できます。

NVIDIA DLSS（Deep Learning Super Sampling）のようなAIレンダリング技術の登場も、リマスター版の開発事情を大きく変化させるきっかけになるでしょう。DLSSとは、GeForce RTXシリーズのGPUに搭載されたTensorコアAIプロセッサを使って、描画パフォーマンスを向上させるディープラーニングモデルのひとつです。少ないピクセルのレンダリングで高画質を実現できることから、フレームレートを大幅に改善してくれます。

21年前のPlayStation 2のゲーム映像がいとも容易く4Kで再生される様からは、レトロゲームのリマスタリングをAIに丸投げできる未来の片鱗が垣間見えます。

Writer：Ritsuko Kawai / 河合律子、Image by Michael Schwarzenberger from Pixabay