OpenAIの日本上陸がもたらすもの：月刊エンタメAIニュース vol.52

2024.4.23先端技術

エンタメにおいても人工知能は日進月歩で発展しており、新しい研究成果や試みが次々と発表されています。こちらの連載では、過去1か月間に公開された注目すべきゲームAIやエンタメAIに関連したニュース、論文などを紹介していきます。

OpenAIがアジア初の拠点を東京に開設

OpenAIは4月14日、日本法人「OpenAI Japan」の設立を発表しました。アジア地域で最初の拠点として東京にオフィスを開設し、政府や地元企業、研究機関と協力しながら日本独自のニーズに応えられる安全なAIツールの開発を目指すとのこと。

OpenAIはサンフランシスコの本社に加えて、ロンドンとダブリンに海外支社を構えており、今回の東京支社は4つ目の拠点となります。日本法人社長には、アマゾンウェブサービスジャパンの社長として国内におけるテクノロジー業界を牽引してきた長崎忠雄氏が就任。日本における事業開発とセールスをリードしていくということです。

同社は日本における長期的な取り組みの第一歩として、日本語に特化したGPT-4カスタムモデルの開発と提供を掲げています。日本語への翻訳や要約のパフォーマンスに最適化することで、従来モデルと比較して最大3倍の速度で動作するとのこと。すでに英語学習アプリ「Speak」に活用されており、数か月以内にはAPIのリリースを予定しているとのことです。

同社CEOのサム・アルトマンは、「日本にオフィスを開設できたことを嬉しく思います。日本は長い歴史を通じ、人々と技術が協力し、大変多くのことを成し遂げています。AIが、人々をより創造的で生産的になるのを助け、まだ想像されていない新しい産業にも広範囲に価値を提供することを加速できると信じています」とコメントしています。

日本ではダイキンや楽天、トヨタコネクテッドなどの大手企業がビジネスプロセスの自動化やデータ分析、社内報告の最適化にChatGPTを導入しているほか、横須賀市を筆頭に一部の地方自治体における積極的な活用も進んでいます。日本法人の設立が国内のエコシステムや社会課題にどのような影響をおよぼしていくのか。今後の動向が注目されます。

たった15秒の音声から本人を完全再現

OpenAIは3月29日にも、音声合成モデル「Voice Engine」を発表して関心を集めました。わずか15秒の音声データから発話者の音声を忠実に再現できるAIモデルで、元の発話者の母国語以外の言語で音声を生成することも可能です。

同社は2022年から開発に着手しており、すでにChatGPTの音声チャットやテキスト読み上げ機能、Text-to-Speech APIといった複数のサービスに同モデルが組み込まれているとのこと。公式ブログでは、オリジナルのサンプル音声と、それを基に生成した合成音声を複数の言語と発話テキストで実際に聴き比べられます。

英語のサンプル音声から生成した合成音声で日本語のテキストを読み上げた例では、不自然な単語の発音やカタコトのイントネーションが目立ちますが、同じ言語で生成した例では事前に知らされていなければAI音声と認識するのは難しいかもしれません。

一方で、同社は再現度の高い音声合成技術がなりすまし等に悪用される可能性も認識しており、重要な個人情報にアクセスする際の音声認証システムが社会基盤からなくなり、個人の音声を保護するための盤石な制度が確立されるまでは、幅広いユーザーに向けた一般公開は難しいだろうと、慎重な姿勢を示しています。

ビジネスシーンに特化したLLM

カナダのスタートアップCohereは4月4日、ビジネスシーンに特化した大規模言語モデル（LLM）「Command R+」を発表しました。

Command R+は、同社が今年3月に発表した「Command R」の後継モデルで、128Kトークンのコンテキストウィンドウはそのままに、パラメータ数が大幅に増加しています。これらのモデルは、Retrieval Augmented Generation（RAG）を用いた高精度の情報検索とハルシネーションの低減が特徴で、日本語を含む10の主要言語に対応しており、ビジネスシーンにおける複雑なタスクを自動化するためのツールを使いこなせます。

この発表と同時に「Microsoft Azure」との提携も明らかにしており、同プラットフォームをとおしたAPIの提供を開始しました。また、近日中に「Oracle Cloud Infrastructure」での提供も予定しているとのこと。

特筆すべきは、同社がCommand R+を機械学習モデル共有プラットフォーム「Hugging Face」で一般公開している点です。学習済みのウェイトもあわせて公開しており、非営利目的に限り誰でも自由に利用できます。つまり、PCにダウンロードしてローカル環境でLLMを稼働させられるということです。

Google Workspaceに動画生成AIが登場

グーグルは4月9日、Google Workspaceのアップデートの一部として、AIを使って手軽に動画を生成できるソリューション「Google Vids」を発表しました。

GoogleドキュメントやGoogleスプレッドシートと同様にクラウド上で利用でき、あらかじめ用意されたスタイルテンプレートから目的や用途にあわせた動画を直感的に作成できるのが特徴です。

動画で伝える情報のドラフトに加えて、素材として使用する映像や画像、BGMとして使用する音楽を入力すると、ストーリーボードが自動生成されます。それを自由に編集しながらユーザーが意図した動画を完成させるという仕組みです。

Google Vidsは、Workspace Labsにて6月の公開を予定しているとのこと。

音楽業界に新たな作曲AIの台頭

この4月は、楽曲生成AI「Udio」もSNSを中心に大きな話題でした。グーグルのDeepMind出身の研究者や技術者が立ち上げたスタートアップによるもので、4月10日に無料で利用できるベータ版が公開されました。

テキストプロンプトでジャンルやテーマ、歌詞、使用する楽器、インスパイアされたアーティストといった情報を入力するだけで、誰でも簡単に作曲が楽しめるサービスです。合成音声を使ったボーカルパートの挿入にも対応しており、ベータ版では1か月に最大1200曲まで生成できます。

音楽生成AIに関しては、昨年12月にも同様のサービス「Suno AI」が脚光を浴びました。歌詞の文脈を理解した上で作曲しているかのようなクオリティが高く評価され、音楽業界へおよぼす影響について、プロの音楽家を巻き込んだ議論に発展しました。また、画像生成AIで一躍有名になったStability AIも、これまでに「Stable Audio」という音楽生成ツールを展開しています。

Writer：Ritsuko Kawai