オープンソースとして発展するAIモデル：月刊エンタメAIニュース vol.34

2022.10.24先端技術

エンタメにおいても人工知能は日進月歩で発展しており、新しい研究成果や試みが次々と発表されています。こちらの連載では、過去1か月間に公開された注目すべきゲームAIやエンタメAIに関連したニュース、論文などを紹介していきます。

AIモデルの機械学習と無断転載は別問題

この10月は、引き続き画像生成AIに関する話題が尽きませんでした。なかでも、クラウドベースの有料テキスト生成サービス「NovelAI」の新機能として、10月3日から提供が始まった画像生成サービス「NovelAI Diffusion」は、他社サービスよりも高品質なアニメ風のキャラクターイラストを生成できるAIモデルとして、国内外で大いに脚光を浴びました。

NovelAI Diffusionは、その名が示すとおり8月にオープンソースとして無料公開された画像生成AI「Stable Diffusion」のカスタムコードが組み込まれたAIモデルです。Stable Diffusionは無償で無制限に利用できることに加えて、「DALL-E」や「Midjourney」といった先行サービスよりも比較的低スペックな環境で実行できる点が最大の特徴です。NovelAI Diffusionのほかにも、これまでに国内外で多くの派生モデルが生み出されてきました。

NovelAI Diffusionで生成されたイラストの一例（出典：NovelAI）

しかし、現行の著作権法では、インターネット上に一般公開されている文章やイラストをAIモデルを構築するための学習データとして著作権者の許諾なしに利用すること自体は、原則として認められています。インターネット上に公開されている文章やイラストが、著作権者によるものか無断転載によるものかを判別する責任はAIモデルの運営側にはなく、たとえ学習データにたまたま無断転載による作品がふくまれていたとしても、機械学習そのものを制限することはできません。

例えるなら、人間のイラスト制作者がインターネット上に公開されている他者の作品にたまたま影響を受けた時、目にした作品が無断転載や盗作だったとしても、それを瞬時に判断できるケースは稀で、後に自分の作品が無断転載にインスパイアされたイラストとして非難される状況はほぼ皆無といえます。AIモデルが機械学習している内容も同じです。仮に他者の作品から技術や作風を学習する行為そのものを禁止してしまえば、ほとんどが著作者に黙認されている二次創作活動の大半が責任を問われるのではないでしょうか。

すでに普及している多くの画像生成AIは、TwitterからFacebook、Pixiv、ArtStation、DeviantArt、Reddit、Pinterest、はてはGoogle画像検索の結果まで、インターネット上で制限なく閲覧できるあらゆる写真やイラストを機械学習しています。NovelAI Diffusionのケースでは、その対象が無断転載を指摘されたDanbooruだったことで批判が集中しましたが、本来はAIモデルによる著作物の機械学習と無断転載の問題は分けて議論されなければいけません。

画像生成AIの応用と加速するオープンソース化

日本国内では画像生成AIに対する否定的な反応も少なからずある一方で、イギリスのインペリアル・カレッジ・ロンドンの研究者が10月5日に発表した論文では、画像生成AIを活用したロボット制御技術が紹介されました。

この研究では、カメラを搭載したロボットアームに卓上に散らばった複数のオブジェクトを撮影させ、AIが認識したアイテムの名称をもとに本来の配置を示す新たな画像を生成しています。その画像の情報をゴールとして設定し、ロボットアームが各オブジェクトを配置し直す過程を検証しています。

たとえば、卓上にプレート、フォーク、ナイフ、スプーンが散らばっている場合、AIは撮影した写真から各オブジェクトを認識して、それらの名称のテキスト情報から一般的な食卓を描いた画像を自動生成します。一般化された食卓のイメージでは、プレートの周りに各ユーテンシルが適切に並べられているので、その状態を復元するようにロボットアームに指示を出すことで、食卓を望ましい状態にセットアップさせられるという仕組みです。

この実験では、画像生成にOpenAIのAIモデル「DALL-E2」が使われています。すでに膨大な画像を学習しているAIモデルを組み込むことで、改めてデータの収集と学習にリソースを費やすことなくロボットを制御しようという試みです。今後、画像生成AIはクリエイティブな分野のみならず、ロボット工学のような社会生活に直結する分野でも大いに活躍する日もくるかもしれません。

10月17日には、画像生成AI「Stable Diffusion」の開発元であるStability AIが、ベンチャーキャピタルから1億100万ドルの資金を調達したことを明らかにしました。Stability AIによると、8月にStable Diffusionをオープンソースとして発表後、世界中から20万人以上の開発者が同AIモデルをダウンロードしたとのこと。また、そのベータ版として以前から公開されていた「DreamStudio」では、これまでに50を超える国や地域で100万人以上のユーザーが1億7000万枚におよぶ画像を生成しているということです。AIモデルがオープンソースとして普及する流れは、今後さらに加速していくことが予想されます。

AIモデルを搭載した新たなボーカロイド

ヤマハは10月13日、バーチャルボーカル制作の総合ソリューションを提供するソフトウェア「VOCALOID」の新バージョンとして、「VOCALOID6」を発売しました。

特筆すべきは、AI技術を用いた新合成エンジン「VOCALOID:AI」を搭載している点で、よりナチュラルで表現力豊かな歌声合成が可能になったということです。くわえて、アクセントやビブラートといった歌唱表現を素早く調整できる編集ツールが実装されたほか、「ダブリング」や「ハモリ」を瞬時に演出できる機能が追加されています。

また、VOCALOID:AIを搭載した新バージョンのボイスバンクでは、クリエイター自身の歌唱データを基に歌い方や歌詞を再現したり、1つのボイスバンクで日本語や英語を織り交ぜた歌詞を流暢な発音で歌わせたりできるようになったということです。

GANによるヘアスタイルのバーチャル試着

美容およびファッション業界でデジタルトランスフォーメーション（DX）を推奨するパーフェクトは10月17日、AIモデルによる機械学習を活用したヘアスタイルのバーチャル試着技術を発表しました。

これはGAN（敵対的生成ネットワーク）を活用したソリューションで、前髪ありのボブ、前髪なしのボブ、カール付きボブ、ウェーブ付きボブ、ショート、ピクシーカット、ロングカール、ウェーブ付きロング、前髪ありロングウェーブ、前髪ありロングストレート、オールバック、坊主などをふくむ、計12種類のヘアスタイルを画面上で体験できます。また、AR技術を応用したヘアカラーの試着も可能とのこと。

ヘアサロンでは美容師によるカウンセリングやカタログの写真を参考にヘアスタイルを決定するのが常ですが、本当に自分に似合うかどうかは施術が終わるまで確認できません。パーフェクトは、AI技術を使って施術後の雰囲気を可能な限り視覚化することで、ヘアサロンにおける消費者の意思決定をサポートできる技術の確立を目指しているということです。

Writer：Ritsuko Kawai / 河合律子、Image by Imperial College London