三田評論ONLINE

【話題の人】
光藤 祐基:音源分離技術でエンターテインメントを革新する

2026/02/16

  • 光藤 祐基(みつふじ ゆうき)

    ソニーAIアメリカ リードリサーチサイエンティスト
    塾員(2002 理工、2004理工修)。ニューヨーク大学客員教授。情報理工学博士。Stanford/ElsevierのWorld's
    Top 2% Scientistsに選出。

  • インタビュアー斎藤 英雄(さいとう ひでお)

    慶應義塾大学理工学部情報工学科教授

矢上賞を受賞して

──このたびは「矢上賞」の受賞おめでとうございます。まず受賞の感想はいかがですか?

光藤 もう卒業してから20年以上になりますね。小沢慎治先生・斎藤先生の研究室は画像中心だったと思いますが、割と音楽系の研究をさせていただくことができました。少し外れた活動も許されて研究ができたことに感謝しています。

大学時代は音楽活動に夢中だったので、そういった研究テーマを選んだのですが、会社に入る時も、やはりエンターテインメントとして音楽を扱っている企業を考えてソニーを選びました。入社後も、比較的自分のやりたい方向のものをやることができ、音楽とAIのことを研究してきました。

パフォーマンスをする側のアーティスト、クリエーター、コンテンツを作る側の人などと試行錯誤しながら、いくつかの作品をこの世に出すことができました。その中で、今回の矢上賞受賞につながった「音源分離」という技術がだんだんと認知されるようになり、その研究について斎藤先生にお話ししたところ、「もしかしたら受賞するよ」ということで矢上賞に応募させていただき、非常によい結果をいただくことができて嬉しく思っています。

──授賞式で再会できて私も嬉しかったです。

光藤 授賞式の場にいらしていただき、また小沢先生も足を運んでくださったので、一瞬自分が20年前に戻ったかのような感覚がありました。斎藤先生とは年齢も比較的近く、僕の音楽のライブなどを見にこられたり、寄り添っていただいて感謝しています。

──卒業されてからソニーに入ったことは知っていましたが、ウェブの記事などで、博士を取られて研究者として非常に活躍されていて、驚いた記憶があります。慶應のAIセンターが2024年に立ち上がり、その際、協力関係があるソニー側のグループリーダーに光藤さんがなられて、慶應との関係においてもつながりができたことも非常に嬉しく思っています。

音源分離技術とは?

──光藤さんが今までずっと関わってこられた音源分離技術とはどういうものなのでしょうか。なぜ必要となるのか。音をなぜ分離しなければならないのでしょうか。

光藤 音源分離技術は1990年代からあります。よくカクテルパーティー効果という言葉が用いられますが、パーティーでざわざわしている中で声をかけられた時、その声が周りと同じくらいのボリュームなのに、なぜか人間は気づくことができます。これは人間にはできますがマシンはできないのです。これを実現するための技術として音源分離がスタートします。

この技術は、いろいろな楽器が混合している音楽から特定の楽器やボーカルだけを抜き出すことにも応用できるのでは、と期待されてきたのですが、技術的なハードルがありました。

例えば人の声を別の声に変えるような技術は、今では生成AIで割と広まりましたが、少し前は実現できませんでした。人の声というのは何かしらノイズが入っているので、人Aと人Bの特徴を上手く学習させたりマッチさせたりすることができなかった。そこで、特定の欲しい音だけを取り出せたらどれだけいいかと、皆思っていました。

声以外にも、空間音響と言って、ヘッドホンでの2チャンネル再生ではなく、セットアップを豪華にし、後ろにも上にもスピーカーを付けたい時にどうするか。元の音源がCDだとステレオでしかないので、その左チャンネルと右チャンネルをいくらいろいろなスピーカーから出しても、結局その2つの音を聞いているだけになってしまう。

この時に特定の楽器を抽出し、ギターは右から、ピアノは左から、ボーカルはちょっと前から、ドラムはちょっと上から流すと、それぞれ違う楽器に囲まれたような形になりますよね。でも、それを実現するための音楽のソースは作られてきませんでした。なぜなら空間音響に見合ったレコーディングはされてこなかったからです。

──そこで音源分離が必要になるわけですね。

光藤 はい。これは非常に重要なテーマだと思いました。音源分離の課題が解決されたら、その後に使えるアプリケーションは数多くあるぞと。

それで、2011年にフランス国立音響音楽研究所(IRCAM=イルカム)という施設に留学し、音源分離を研究しました。その後、研究者として論文を書き、2013年にICASSP(アイキャスプ)という学会に行ったのです。トロント大学のジェフリー・ヒントンさんという、ノーベル賞も受賞されたAIのゴットファザーと呼ばれている方のキーノートトークでした。そのお話は、オブジェクト認識と音声認識の2つの分野で深層学習、今で言うAIを導入することで、ものすごく性能を上げることができたということでした。

これは何か新しいことが起きる瞬間に出くわしているのではないかと思い、帰国後、これを応用することを考え、音源分離の技術に深層学習を導入することを試みました。

カテゴリ
三田評論のコーナー

本誌を購入する

関連コンテンツ

最新記事