ビートルズ新曲制作を実現した音源分離AIとは何か？技術的背景とアプリを紹介

2023.12.20音楽

2023年11月3日、ビートルズの新曲『Now And Then』のミュージックビデオがYouTubeに公開されました。この楽曲には故人であるジョン・レノンが残していたカセットテープ音源が使われていますが、その制作には音源分離AIが不可欠でした。本稿では『Now And Then』の制作秘話をまとめてから、音源分離AIの技術的背景とこの技術を使った代表的なアプリを紹介します。

ドキュメンタリー映画に使った技術から誕生

アメリカ・ニューヨークに拠点を置くメディアNew School Free Pressは2023年11月18日、『Now And Then』の制作秘話に関する記事を公開しました。その記事によると、同曲は1994年にジョン・レノンが残した音源を使って楽曲を制作するThe Beatles Anthology Projectの一環として、その制作が着手されました。このプロジェクトからは『Free as a Bird』が誕生しましたが、一部の音源はレノンのボーカルとピアノ演奏をうまく分離できなかったので新曲制作を断念しました。

以上の難問を解決する転機は、2021年にDisney+で配信されたドキュメンタリー映画『ザ・ビートルズ: Get Back』の制作時に起こりました。同映画はビートルズを撮影した60時間の映像と150時間の音声テープを素材として制作されたのですが、音声テープの一部では会話と楽器の音が重なり合っていたために会話が聞き取りづらいという問題がありました。この問題を解決するために、音源から音声や楽器の音を抽出する音源分離AIが開発されたのでした。

『Now And Then』は、この音源分離AIを使ってレノンのボーカルとピアノ演奏を分離することで制作可能となりました。最終的に完成した同曲のミュージックビデオでは、現在のポール・マッカートニーとリンゴ・スターに加えて、ジョン・レノンとジョージ・ハリスンも生前の姿で出演しています。

『Now And Then』のような故人に帰属する著作物を使ったコンテンツ制作には、故人の許可を得ずに制作することに関する倫理的な問題が生じます。この問題について、マッカートニーは「もしジョンに聞いたら、いいよと言うのはわかっているよ」と同曲の制作過程を収録したYouTubeショートフィルムで語っています。

2つの技術トレンドが合流した現代の音源分離AI

音源分離AIは近年急速に実用化された音響AI技術のひとつですが、代表的な研究成果にはMetaが発表したDemucsがあります。このAIについての論文によると、音源分離AI研究には、音響スペクトルで表されるような音波情報にもとづく方法と、音楽のメロディに表されるような音声の時系列情報にもとづく方法がありました。Demucsは、これら両方の方法を統合するアプローチを採用しました。

Demucsのアーキテクチャは、以下の図のように表せられます。同AIには音波情報の特徴を抽出するエンコーダー（図左下）と、時系列的音情報の特徴を抽出するエンコーダー（図右下）がそれぞれ4層ずつあります。それらのエンコーダーによって抽出された特徴量は、カテゴリーの異なる特徴量を入力できるクロスドメインTransformerエンコーダーによって統合されます。

クロスドメインTransformerには、音波情報と時系列的音情報を出力するデコーダーがそれぞれ4層つながっています。これらのデコーダーから出力されることで、任意の音源だけを抽出できるようになります。

Demucsを訓練したデータセットは、200人のアーティストが制作した3,500曲から構成されており、各楽曲には4つの音源がふくまれていました。こうしたデータセットには音源に関するラベルが自動で付与されていたのですが、ラベルの間違いが少なくなかったので、データセットの一部は人手でラベルを修正しました。

Demucsはオープンソースで公開されているので、現在では同AIの設定や使用した感想をまとめたウェブ記事が多数あります。その記事の多くが、無料で使えるのに高品質な同AIを好意的に評価しています。

音源分離可能なスマホアプリも登場

現在ではDemucsのほかにも、実用に耐えうる音源分離機能を実装した音楽編集ソフトが多数あります。

例えばAdobe Auditionの機能のひとつである「センターチャンネルエクストラクターエフェクト」を使えば、任意の楽曲からボーカルやドラムなどの楽器の音を抽出できます。特定の周波数の音のみを抽出あるいは削除することも可能なので、男性の声あるいは女性の声のみを抽出対象にできます。

Adobe Auditionには音源の抽出・削除のほかにも、Adobe Premiere Proから読み込んだ動画の長さに合わせて楽曲を調整するリミックス機能や、ポッドキャストを簡単に作成できる機能も実装されています。

アメリカ・ボストンに拠点を置く音響ソフトメーカーiZotopeが開発・提供する「RX10」にも音源分離機能に相当する「ミュージック・リバランス」が実装されています。この機能は、ボーカルや楽器音の抽出・削除だけではなく、それぞれの音源のボリュームも調整できます。また抽出音を音源ファイルとして生成して、さらなる微調整も可能です。

RX10には人間の対話音源から雑音を低減・除去する機械学習アルゴリズム「ダイヤログ・デリバグ」や、音響スペクトルから人間の音声部分のみを特定する「テキスト・ナビゲーション」といった機能もあります。後者は、複数の音声に対応しているので多数の人々が参加するミーティングの音源加工に使えます。

音源分離を実行できるスマホアプリも多数あります。例えば「Moises:ミュージシャンアプリ」は、ボーカルと2～5音源の楽器音を抽出できます。同アプリはメトロノームとしても機能し、AIによる歌詞書き起こし機能もあります。この機能は英語、スペイン語、ポルトガル語、イタリア語、フランス語に対応しています。