モリカトロン株式会社運営「エンターテインメント×AI」の最新情報をお届けするサイトです。

TAG LIST
機械学習ディープラーニングCGCGへの扉モリカトロンAIラボインタビューGAN三宅陽一郎CEDEC2019ゲームAIスクウェア・エニックス音楽シナリオ強化学習GDC 2019VFX映画ニューラルネットワーク遺伝的アルゴリズムデバッグ不完全情報ゲームVRキャラクターAIボードゲームファッションルールベースSIGGRAPHイベントレポートQAメタAIOpenAIガイスターロボットグーグルマルチエージェントナビゲーションAI小説AlphaZero深層学習AIと倫理toioビヘイビア・ツリー自動生成研究DeepMindJSAI2020人工知能学会CMAmadeus Code音声認識シーマン齊藤陽介お知らせ敵対的生成ネットワークサルでもわかる人工知能ワークショップ知識表現IGDAどうぶつしょうぎ畳み込みニューラルネットワークマシンラーニングクラウドマイクロソフト藤澤仁宮路洋一GoogleStyleGANNVIDIAスポーツフェイクニュースディープフェイクASBSぱいどんTEZUKA2020AI美空ひばり手塚治虫月刊エンタメAIニュース汎用人工知能ゲームブロックチェーンOpenAI Five映像ピクサーAdobe作曲ビッグデータアストロノーカナラティブモリカトロンパラメータ設計バランス調整対話型エージェント人狼知能エージェントシミュレーションロボティクスeSportsDota 2ソーシャルゲーム眞鍋和子淡路滋グリムノーツゴティエ・ボエダGautier BoedaJuliusTPRGバーチャル・ヒューマン・エージェントクーガー石井敦茂谷保伯森川幸人成沢理恵マジック・リープMagic Leap Oneノンファンジブルトークン水野勇太里井大輝GEMS COMPANY初音ミク転移学習デバッギングアニメーションリップシンキングUbisoftUbisoft La Forge北尾まどか将棋ナップサック問題ジェイ・コウガミ音楽ストリーミングSpotifyReplica Studioamuse5Gクラウドゲーミング和田洋一Stadia対話エンジン斎藤由多加シーマン人工知能研究所ゴブレット・ゴブラーズSIGGRAPH 2019ARAIりんなアップルiPhoneカメラ完全情報ゲームAIGraph環世界中島秀之予期知能ウェイポイントパス検索ドラゴンクエストPAIR画像認識アルスエレクトロニカ2019DeNA逆転オセロニア長谷洋平奥村エルネスト純齋藤精一高橋智隆ロボユニ泉幸典ロボコレ2019アートぎゅわんぶらあ自己中心派意思決定モデルウロチョロス理化学研究所教育SIGGRAPH ASIAHTN階層型タスクネットワークLEFT ALIVE長谷川誠Baby Xロバート・ダウニー・Jr.YouTubeSFThe Age of A.I.レコメンデーションソニーテンセントMOBA人事研修プロシージャルmynet.ai人工音声プレイ動画NBADARPAドローン群知能ウィル・ライトシムシティシムピープルレベルデザインSporeデノイズ画像処理GPUCPUALife人工生命オルタナティヴ・マシンサウンドスケープGMAITRPGウィザードリィAI Dungeon西川善司サムライスピリッツゼビウスストリートファイター栗原聡山野辺一記大里飛鳥マンガ13フェイズ構造手塚眞不気味の谷Oculus Quest生体情報写真照明山崎陽斗立木創太松井俊浩スパーシャルAIGPT-3GameGANパックマンCNN

生物が“音の棲み分け”をする環境を、ALife研究者が再現する理由

2020.3.18サイエンス

生物が“音の棲み分け”をする環境を、ALife研究者が再現する理由

「ANH」はその場の音環境にリアルタイムに適応し、自然環境のような豊かなサウンドスケープを生成する音響自動生成マシン。ALife研究者によるスタートアップ、オルタナティヴ・マシン社によって開発が進められ、2019年12月に開催された音楽とデジタルアートの祭典MUTEK.JP 2019で試作機「ANH-00」が初公開されました。その特徴のひとつはサウンドの生成時に遺伝的アルゴリズム(GA)を使っていることです。本稿ではANHの開発に携わる青木竜太氏(ディレクター)と升森敦士氏(ソフトウェア設計・開発)、土井樹氏(ソフトウェア設計・開発)、ジョン・スミス氏(ハードウェア設計・開発)をモリカトロンAIラボ所長の森川幸人とともに訪ね、彼らが構想するテクノロジーと人類の未来についてお伝えします。

サウンドスケープで見える、生物の生きる環境

森川幸人氏(以下、森川):サウンドスケープを自動生成する「ANH」、これはどういうものなのですか?

青木竜太氏(以下、青木):まずANHの概要ですが、これは設置場所の環境音を収集し、その周波数帯域の空きが自然と埋まるような新たな音を自律的に生成し出力する装置です。

プロジェクトの背景には、世界中でフィールドレコーディングをしてきたバーニー・クラウスという、有名な生体音響学者の存在があります。彼は、その結果から生物の鳴き声には、時間的にも空間的にも周波数的にも重なりがないということを見つけました。生物は音を棲み分けて、共生して進化してきたのではないかという仮設を立てたのです。これを「音のニッチ仮説(The Acoustic Niche Hypothesis)」と言います。

例えば森などは広範囲に音が埋まった状態です。それを生物が作り出しているとしたならば、都市においては大幅に音が欠落していることになります。実際、レコーディングをすると上の方の帯域の音がなかったりします。これはまだ実証されたことではありませんが、人間はもともと自然に暮らしていましたから、自然にはあった周波数帯がないことが、心理的にも生理的にも何らかの影響を与えていると言われています。じゃあ、それを人工的にどう作り出すかという所で、今回のプロジェクトが始まり、ALIFE Lab.とISIDが進めるALife(人工生命)の社会応用に向けた共同研究プロジェクト「集団の形成メカニズムの分析と介入方法の実証」の一環として実施することになりました。

バーニー・クラウスによる音のニッチ仮説

森川:環境音もふくめて全部の帯域が埋まっている感じなんですか? その中で生物はちゃっかり空きを見つけて棲み分けていると。それは声を大きくするとか、特殊な波形にする、とかではなく?

升森敦士氏(以下、升森):進化よりも短いタイムスケールでも、よく聞こえないから大きな声を出すとか、ちょっと高い音にするなどして調節することもあります。それはそれであるのですが、これは長いタイムスケールの話で、他の生物の声と同じ帯域でかぶってしまわないように発声器官などを進化させて、本当に周波数帯域などを棲み分けているということです。

森川:人間が聞こえるのは20Hzから20,000Hzと言われますが、動物によって可聴域が異なりますよね。

土井樹氏(以下、土井):そうですね。例えばもっと高い周波数でやり取りしているネズミやコウモリなら、その生息環境を周波数スペクトル(横軸が時間、縦軸が周波数、色の濃さが音の強さを表す)で見ると人が聞こえない帯域で埋まっていると思われます。

森川:もっと他の生物が聞こえないような領域、より高周波を受け取るようには進化しなかったのですかね。

升森:それもあると思います。生物はどんどん人間が聞こえない領域にずれていって、空いている所でコミュニケーションするよう進化している。高周波も結構埋まっていますね。

土井:もしかしたら、何億年か前はそこが埋まっていなかったかもしれない。

青木:いわゆる「ハイパーソニック・エフェクト」と言われる可聴域を超える音がヒトの生理活動に影響をあたえる現象、これはまだ実証されたわけではありませんが、少なくとも脳が反応しているということだけは分かり始めています。すごく乱暴に言うと、人間の耳には聞こえないが脳で感じることはできて身体に良いとか、リラックス効果があると。確かではないのであえて言ってはいませんが、そういうこともふくめることによって癒やし的な効果も期待しています。

升森:つい最近の研究でも、細胞が音を聞いているというのがありましたね。おそらく表面振動があって、それによって何かしらの影響を受けるとか。入力としてそれがあって、それで自分の内部状態が変わるということだと思います。

青木:聞いているというよりは身体で感じているという。

森川:これは海の中でも起こっていることですか?

土井:起こってないとは言い切れないんじゃないかなと思います。海の方が音の伝達速度は速いですし重要な情報伝達媒体として使われているんじゃないかと思います。。

升森:クジラとかイルカとか分かれているのではないかな。

森川:クジラと船のエンジン音がバッティングするという話もありますね。

升森:ありましたね。それでコミュニケーションがうまくいかなくて、変な方向に泳いで行ってしまうと。海だと最近おもしろいのが、サンゴ礁が死滅した場所でサンゴ礁のいる環境の音を流してやると魚が帰ってくるという。音が環境として重要な要素だということですよね。

森川:海の生物が視覚だけとか嗅覚だけではなく、聴覚も利用しているというのは、おもしろいですね。

升森:森に対してもそういう効果があるかもしれない。人間は都市を作ることで環境を壊してしまった。そのため、高周波帯域などガッツリなくなってしまったけど、そこでこういうものを作ることで抜けている帯域が自然と埋まってきて、自然な周波数分布に導かれていく。サンゴ礁の話のように、鳥など生物が戻ってくると。

青木:人工的な環境で帯域の欠損がある時、そこが埋まることが何かしら生物や人間にとっていい可能性があるというのと、今言ったような生態系を取り戻す、呼び込み効果的なものがあるかもしれない。まだ分からないけど、それを研究として進めていこうということです。

遺伝的アルゴリズムによるサウンドスケープの自律生成

青木:ここでANH-00のデモを聞いていただきたいのですが、これはレコーディングして再生するのではなくて、その場の音に適用してリアルタイムにサウンドスケープを作り出しています。試作機は室内空間の使用を想定していますが、将来的には工場や都市スケールに展開していきたいと考えています。

これは試作機ですが、ボックスの中にマシンやアンプが入っていて、ぶら下がっているのがマイクとスピーカーです。MUTEKの時のように本当はもっとあった方がいいんですが、今はそこにある2台でコミュニケーションをして、徐々に音の感じが進化して変わっていきます。場の音が変われば、さらに変わっていきます。環境音が変わっていく方がおもしろい感じになりますね。

ANH-00の電源を入れて1分ほど待つと、生成された音がスピーカーから再生される。2019年12月のMUTEK.JP、BOOSTER STUDIOで行われたデモでも、高周波のノイズのような音から徐々に生物の鳴き声に似た音へ変化していった

森川:モビールのようなワイヤーの両端にスピーカーとマイク、この高さがずれているのには理由があるのですか?

ジョン・スミス氏(以下、ジョン):多少自由度があることによって、環境による個性が出るのではないかと考え、モビールのようなある程度動かせる構造を持たせました。

青木:電源供給は電球ソケットからなので、どこでも取り付け可能です。仕組みの概要としては、マイクで環境音を収音して、可聴域を超えた音もふくめて、その場の音の周波数の空きを埋める音を作り出します。このために遺伝的アルゴリム(英語ではGenetic Algorithm。以下、GA)を使っています。また、GAから生成された音のバリエーションを作るためにダイナミクスエンジン「ALife Engine」でゆらぎを作り出しています。

升森:説明の都合上、「空いている帯域を埋めるようにGAで進化を最適化する」と言うことが多いのですが、厳密に言うと違います。実際には、リアルな生物に近い形で音を出すエージェントが複数いて、それらが「同じ種の中でコミュニケーションがうまくいくように自分の音を変えていく」ことを繰り返していくことで、自然とそれぞれの種で使う音の帯域が分けられていきます。GAの評価関数としては、自分の発した音が環境を通して自分と同じ種に送られた時に、その音がうまく伝わったかどうかを見ています。

土井:例えば、僕が升森さんに話しかけた時、周囲がものすごくうるさかったら僕の声は聞こえません。そこで、もうちょっと高い声を出して話しかけると升森さんから「伝わりました」と返ってくる。「じゃあ、そのあたりで話しましょう」ということになります。次に、高い所でカンカンと音がしているような環境では、高い声で話をしても伝わりませんが、低い声で話をしてあげると伝わりました、という感じでどんどん音が変わっていきます。

森川:空いている帯域に近い声の評価が高くなるということですか?

升森:直接そうしているわけではなく、結果的にそうなるということです。空いている帯域を使うことでフィットネスが上がるというわけではありません。あくまでコミュニケーションがうまくいくかどうかです。

森川:空いている帯域に入っているかどうかを直接評価するより、そのほうが良いということですね。

升森:その方法では、どこかでトップダウンの評価が必要になってきます。今回のように複数のモジュールに分かれている場合、あくまでローカルでコミュニケーションがうまくいったかどうかという評価をしてあげるだけで、全体としてそういう周波数分布になっていくと考えました。

やはりそういう形が自然だし、僕たちがALifeの研究者ということもあるので、集団として生態系が自然に進化していくようなモデルを作りたかったのです。周波数スペクトルを与えて、それに合わせて学習するやり方は割と工学的な感じですよね。答えがここにあって、それを見つけに行く。ですが、ALife的な考え方では、お互いに行動し合って、自分で見つけていきます。

青木:ALifeの技術的哲学がまあそういう所にあると言いますか、決め打ちでトップダウンで設計するというよりも、ボトムアップに生まれてくる創発現象をどう技術的に作り出すか。創発現象をどうチューニングするか、そういう所にありますね。

森川:なるほど、おもしろいですね。うちのエンジニアなら前者を使うだろうな。「伝わる」「伝わらない」というのはどういうことで判断しているのですか?

升森:エージェントは聞こえる帯域をそれぞれ持っていて、それも進化していきます。聞こえるというか、自分がアテンションをかける聴覚領域みたいなものです。それもゲノムにコードされています。

単純な流れとしては、環境音がある中で自分の仲間のエージェントが最初に音を生成します。生成した音は環境音を通っていきます。そこからFFT(高速フーリエ変換;Fast Fourier Transform)をかけて周波数成分に分解し、相手が「自分が聞いている帯域」以外はカットします。その状態でまた逆FFTをかけて波形に戻し、返ってきた波形が最初に生成された波形とどれくらい一致しているかを相互相関関数で評価します。それがGAのフィットネスになっています。

土井:耳と口(声)の進化がパラレルに起こるというイメージです。例えば上が空いているからといって上の方で音を出していたとしても、聞く帯域を全体にしてしまうと、どれが自分の仲間の音かは分からないですよね。ですから聞く帯域も合わせて狭めていきます。その両方の進化が起こっているわけです。

森川:双方で空きスポットを探すように自ずと進化していく。どう進化していくかというのは開発者が予測できるのですか? 最終的にこの辺になるだろうとか。

升森:今回、音の生成はFMシンセサイザーをベースにして、そのパラメータをGAのゲノムでコードしていますが、どんな音が生成させるかは分かりません。

土井:音の作り方には何種類かやり方はあって、ひとつは本当にサウンドファイル、マイナス1からプラス1まで数字の列で表されるファイルをダイレクトに生成する方法です。もうひとつは何かしらのシンセサイザーを用意してそのパラメータを調整して作る方法です。前者のやり方はおもしろくなる時もありますが、結構な確率でノイズになります。今回はマシンの制約など色々あって、FMシンセを使っています。それを何個か組み合わせて、オシレータのつなぎ方というようなパラメータ部分をGAにコーディングしています。FMシンセは計算コスト的にはそう重くないにもかかわらず、複雑な音色が出せるシンセで、どんな音が出るのか結構分からない感じもあって、相性が良かったですね。

森川:マシンの制約というと、エージェントはどのくらい動いているんですか?

升森:MUTEK.JPで展示した時は1台がひとつの種みたいな扱いになっていて、そのひとつの種で同時に鳴くのが20エージェントくらい。進化させるプロセスでは100エージェントとか、それくらいです。

森川:遺伝子のビット長はどれくらいになるんですか?

升森:今回はそんなに長くはなくて、シンセサイザーの構造が全部で5個とか6個。最大でもパラメータは10行かないくらいですね。

森川:それは、リアルタイムで進化させるための計算負荷の問題ですか?

升森:今回、小型のPCで回さないといけなかったので。最初は波形レベルで生成するような、リカレントニューラルネットワーク(RNN)的なものでやってみたりしたのですが、計算が重いし、なかなか音も安定しなかったので、何とかパラメータを減らす方向でいきました。

森川:PC自体は何を?

升森:最初はRaspberry Piとかでやろうとしたのですが、さすがに全然計算が追いつかなくて。いま、Intel Compute Stickを使っています。CPUはデュアルコアで、1コアの計算速度でいうとMac Book Proと変わらないレベルのものが入っています。そのおかげで何とか計算できているという感じです。

土井:AMシンセでさえ計算が重くてやばいかもしれないと。それで、もっと軽くておもしろくなりそうなFMシンセにしました。ある意味、「喉の制約」みたいに、人工の生物の身体の制約としてFMシンセの形を使っています。理想的には、FMシンセの構造もGAで進化させていければいいのですが、今回はこれが良さそうだという構造をいくつか事前に用意してパラメータの部分だけを調整するというやり方を採っています。

升森:シンセサイザーの構造などは、僕と土井君で「これで進化して出てくる音ってどうだろうか」と想像しながら作っています。ただやはり、ボトムアップ的に創発してくるサウンドスケープは予想できない。あまりにも予想していない使い方ができてくるので、ボトムアップでモデルを組んでいる方がやはり楽しいです。ALifeの研究者はそういうことが好きな人が多いですね。

森川:楽しいという所に大きなシンパシーを感じます。僕も昔、ゲームで遺伝的アルゴリズムを使ったことがあります。モンスターの進化に使ったのですが、その時に言われたのは「ゲーム的に安定するのか」「設計者が想像する範囲内に収まるのか」と。いや、収まらないから楽しいんじゃないかって、侃々諤々でしたが。やはり予定調和的にならない、人間の予見を超えた所を見られる驚き、そこに楽しさというのがありますよね。

青木:シミュレーターでのデモでしたが、彼らが作ったものを最初に聞いた時におもしろいなと思ったのは、コオロギっぽい音になっているんです。でも、別にコオロギの音を出そうとしてやっているわけではなくて、進化させた結果そうなった。

升森:そうですね。特にこのシンセは最初はノイズみたいな音から始まるのですが、まさか僕らも進化の結果こんな音が出るとは思わなくて。本当に、生物の進化と近いかもしれないと思いました。こうした、たくさん環境音のある中で、すごくシンプルな構造で音を鳴らさなければいけない条件で進化した結果は虫もそうですよね。そういう制約の中でうまくコミュニケーションをしようとすると、自然とこういう虫の鳴き声のような音になるのがおもしろいですね。

青木:お互い、つながりたいという欲求から音を鳴らして、それがまた変わっていく。それを見ておもしろいなと。まさにALife的な発見ですよね。進化はとても時間がかかることですが、それを圧縮して、速度を速めて進化させることによって発見することができる。まさにALifeのひとつの醍醐味ですね。

Writer:大内孝子

≫≫後編に続く:3月20日(金)公開予定

RELATED ARTICLE関連記事

AIが切り拓く、ゲームを超えたゲームの世界:鳥海不二夫氏インタビュー

2019.4.17サイエンス

AIが切り拓く、ゲームを超えたゲームの世界:鳥海不二夫氏インタビュー

AIと「楽しく」作るドレスコレクション:エマ理永氏×森川幸人氏 対談(前編)

2019.8.23サイエンス

AIと「楽しく」作るドレスコレクション:エマ理永氏×森川幸人氏 対談(前編)

ファッションの制約をAIと乗り越えるには:エマ理永氏×森川幸人氏 対談(後編)

2019.8.27サイエンス

ファッションの制約をAIと乗り越えるには:エマ理永氏×森川幸人氏 対談(後編)

RANKING注目の記事はこちら