GoogleやMetaも開発。台頭するテキスト音楽生成モデル

2023.11.02音楽

2022年における画像生成の登場で瞬く間に世界の注目されるようになった生成AIは、現在ではさまざまなコンテンツ生成で利用されています。近年では画像に続いて、音楽もテキスト入力から生成できるようになりました。そこで本稿では、代表的なテキスト音楽生成モデルを3つ紹介します。

参考記事：文章と画像に続いて音楽も誰でも生成可能に：月刊エンタメAIニュース vol.45

ユーザ登録して利用できるGoogleのMusicLM

Googleは2023年5月10日、毎年5月に開催される同社主催開発者会議「Google I/O」2023年大会においてMusicLMを発表しました。このモデルは、昨年11月に同社が開催したAI特化型イベント「AI@’22」で披露された音楽生成モデルAudioLMを発展させたものです。

MusicLMには、以下のような3つの機能が実装されています。

SoundStream：任意の音源から（音程などの）音響的特徴を抽出して、その特徴に後続する確率の高い音響を生成する（AudioLMに実装）。
w2v-BERT：任意の音源から（歌詞などの）意味的特徴を抽出して、その特徴に後続する確率の高い音声を生成する（AudioLMに実装）。
MuLan：テキストで表現した音楽の特徴と、その特徴に対応した音源の対応関係を学習した機能。同機能によって入力されたテキストから音源が生成された後、上記2つの機能によって音楽的に解釈されて最終的な楽曲が生成される。

MuLanの学習にあたっては、音楽の特徴を記述したテキストと音源を対応づけた学習データセットMusicCapsが活用されました。このデータセットには5,521のテキストと音源のペアが含まれており、テキストはミュージシャンによって記述されました。そうした記述は、例えば「ポップ、ブリキのワイドなハイハット、メロウなピアノのメロディ、甲高い女性ボーカルのメロディ、脈打つ持続的なシンセのリード」のようなものです。

なお、MusicCapsのテキストにはアーティスト名がふくまれていません。このような学習データになったのは、アーティスト名をふくめてしまうとそのアーティストの楽曲を学習データに収録せざるを得なくなって、著作権侵害のリスクが生じてしまうから、と推測されます。

MusicLMは、Googleが開発したAIモデルの実験室であるAI Test Kitchenからユーザ登録すると、試用できるようになります。同モデルに関しては、プロミュージシャンが集まってその可能性を探求するワークショップも実施されました。

効果音の生成も可能なMetaのAudioCraft

MetaのAI研究部門は2023年8月2日、公式ブログにおいてAudioCraftを発表しました。このモデルは、以下のような3つの機能から構成されています。

MusicGen：テキスト入力から音楽を生成するモデル
AudioGen：テキスト入力から（風が吹く音のような）効果音を生成するモデル
EnCodec：音源を圧縮・復元するモデル

以上の機能のうちで最も重要なのはEnCodecです。このモデルは、データ量の大きい音源を離散的なトークンデータに分解することを通して、音源を圧縮します。トークン化された音源は、ちょうど文字列のようなデータ構造を有しています。それゆえ、大規模言語モデルの基礎技術になっているTransformerのようにトークンデータ相互の依存関係を自己学習できます。そして、大量の音楽データを学習すれば、音響情報を生成できるモデルが開発できるというわけなのです。

音響情報を学習したEnCodecに対して、テキストと音響的特徴を対応づけたモデルを統合すると、テキストから音響情報が生成できるモデルが開発できます。こうして開発されたのが、MusicGenとAudioGenです。このふたつのモデルの違いは、前者がテキストと音楽の対応を学習しているのに対して、後者は音楽の代わりに効果音を学習しているところにあります。前者の学習データにはMetaがその著作権を管理する2万時間分の音楽が含まれており、後者のそれはパブリックな効果音データが使われています。

AudioCraftを紹介したブログ記事には、さまざまな生成事例が掲載されています。MusicGenの事例には「キャッチーなメロディ、南国風なパーカッション、アップビートなリズムのポップなダンストラック」といったテキストから生成された音楽があります。AudioGenには「風に吹かれながら口笛を吹く」というテキストから生成された効果音事例があります。

以上のようなMusicCraftをMeta研究チームはオープンソースとして公開しています。このように開発したAIモデルを秘匿しないのは、同研究チームが自分たちの研究能力には限界があると自覚しているからです。そうした限界のひとつとして、同モデルの学習データはいわゆる洋楽が多くを占めている、といった偏りが指摘できます。こうしたなかオープンソースで公開すれば、各国の研究チームがよりバイアスが少なくなるように同モデルを改良できるのです。

画像からの音楽生成も可能なMubert Render

AI生成音楽を提供するアメリカ・デラウェア州に拠点を置くAIスタートアップのMubertは2022年12月21日、テキスト生成音楽サービス「Mubert Render」（ベータ版）を開始したことを発表しました。ウェブページから利用可能な同サービスは、テキスト入力ボックスに生成したい音楽の特徴を入力すると、その特徴をもった最大25分の音楽を生成します。同社YouTube公式チャンネルには、開発段階の同サービスのデモ動画が公開されています。

Mubert Renderの興味深いところは、テキストのほかに画像を入力できるところです。具体的には、テキスト入力ボックス右側にある画像指定アイコンをクリックすると、画像指定画面が表示されます。この画面から任意の画像を指定すると、その画像にもとづいた音楽が生成されます。

ちなみにMubertは2023年8月11日、同社が展開するAI生成音楽サービスに関する大規模なユーザ調査の結果を発表しました。この結果はあくまでひとつのサービスに関するものですが、AI生成音楽市場全体の一端を垣間見せるものでもあります。300人のユーザを対象にした調査の結果は、以下のように要約できます。