距離の制約を超えて、人と人、人と空間をつなぎ、あたかも同じ空間にいるような自然なコミュニケーションができる、MUSVIのテレプレゼンスシステム「窓」。
より深く知っていただくため、「窓」を支えるコアのテクノロジーやUX、そして、その開発・実装に関わったエンジニア、クリエイターの方々に登場いただき、数回にわたってインタビュー記事を連載します。

第1回は、「窓」のインタラクションに不可欠な「ステレオエコーキャンセル技術」。

MUSVIはソニーグループから技術供与を受け、その社会実装を実現し、「窓」を通じて新たな体験価値の創出や社会課題の解決に役立てていくことを目指しています。ステレオエコーキャンセル技術もその一つで、今回その開発に長く関わってきた、ソニー株式会社 技術開発研究所 空間音響技術開発部の櫻庭洋平さん にお話を伺いました。

ソニーが得意とする音響の領域において、ステレオエコーキャンセル技術がどのように開発され、MUSVIの「窓」に実装されたのか。テクノロジーの裏にあるヒストリーと地道な開発を、エンジニア目線から紐解きます。

ソニー株式会社 技術開発研究所 空間音響技術開発部の櫻庭洋平さん

ビデオ会議システムから始まったステレオエコーキャンセル技術
徹底的にこだわった「臨場感」と「自然な音質」

― ステレオエコーキャンセル技術※は、ビデオ会議システムの開発の中で培われた技術と伺っています。その特長や強み、開発の歴史などについて伺わせてください。

ソニーには以前よりビデオ会議システムの製品があり、元々はそのために開発した技術でした。「臨場感」と「自然な音質」に徹底的にこだわっているところが大きな特長です。その二つを実現するため、エコー※の少なさとダブルトークのへこみの少なさが ポイントになります。

ダブルトークは、自分側と相手側、両方が同時に発声し、音が重なり合うことをいいます。両方の声がマイクに同時に入ると、ステレオエコーキャンセル技術ではスピーカーから出た音を確実に消そうすると、話者の声がひずんでしまいます。話者の声をひずまないように残そうとすると、スピーカーから出た音を消しきれずにエコーが残ってしまいます。このように、ダブルトークではエコーと音のひずみ・へこみにはトレードオフの関係があります。このトレードオフを高いレベルで両立させられるのが、ソニーの強みだと思います。

※ エコーとエコーキャンセル技術
ビデオ会議のようなマイクとスピーカーを用いた双方向ハンズフリーの通話の場合、自分の声が遅れて自分の耳に戻ってくることがあります。これは、話者が発声した音声が相手に送られたとき、相手側のスピーカーから音声が出力され、さらにその音声を相手側のマイクが拾い、再び話者側のスピーカーから出力されるためです。やまびこやこだまのように聞こえることから「エコー」と呼ばれます。
エコーは、通話を妨げるだけでなく、ひどい場合はハウリング(音声がループし、ぐるぐる回る現象)を起こします。自然な同時通話を実現するためには、スピーカーから出た音声を消去し(上図の×の部分)、再び相手に送られることを防ぐ「エコーキャンセル技術」が必要となります。

ステレオであるがゆえの難しさと苦労

― ある意味、二兎を追っているわけですね。ステレオとなると、なおさら難しいのではないかと思うのですが、その点はいかがですか。モノラルだとマイクとスピーカーは一対一ですが、ステレオだと左右にマイクとスピーカーがあり、エコー伝達経路の組み合わせは4通りあります。「自然な音質」の実現とどんな関係があるのでしょうか。

ステレオだと臨場感のある音になりますが、難易度は上がります。組み合わせが4通りということはモノラルに比べて計算量が4倍になりますし、エコーが多いと、ステレオの音のバランスが崩れたり、ひずみが多くなりがちです。

そういう症状が起きてしまうと、先ほどお話したトレードオフのバランスが悪化し、ダブルトークの時に音声が戻ったり、音が潰れてしまうようになります。話していると、相手の声がプツプツと途切れてしまうようなケースです。そうなると、自然な会話というよりはいかにもビデオ会議というクオリティになります。そうならないよう開発する必要がありますし、難しさでもあります。

― 計算量が多く、複雑な制御が行われている、ということですね。「窓」がPCの性能にこだわる理由もよく理解できました。ちなみに、櫻庭さんがステレオエコーキャンセル技術の研究を始めたのはいつ頃からですか。

2005年あたりではないでしょうか。 もう17、18年になりますね。先ほどお話した通り、ビデオ会議システムの「IPELA(イペラ)」からスタートし、その後、グループ内のさまざまな製品で採用してもらいました。その流れで、「窓」での採用につながったと思います。

― MUSVIのメンバーとの出会いはいつ頃でしたか。

2016年頃 です。エコーキャンセラーの性能が上がってきて、社内実績が増えてきた時期でした。うちの部署からもパートナーを探している中でMUSVIの今のメンバーとつながり、デモを行いました。そこで可能性を感じてもらえたので、「窓」に実装するという流れになったと記憶しています。実際に「窓」と組み合わせしてみたら効果は明らかでした。

― 臨場感を求める「窓」との相性は当初からよかった訳ですね。

そうですね。「窓」は対面と同様の臨場感、つまり「本当にその場にいる」というのを目指しているので、この技術がはまったと思います。今回チューニングを行いましたが、MUSVIの用途に合うことを考えましたし、より音質重視のものになっています。

チームが一つになって生み出した、新しい技術
経験やノウハウに頼らない開発はお客さまのお叱りがきっかけ

― 先ほどビデオ会議システムのお話が出ましたが、元々興味がある分野だったのでしょうか。

大学時代からオーディオ系の信号処理の研究をしていました。ソニー入社時に、ちょうどエコーキャンセラーをはじめとする音声信号処理の開発を行う部署ができて、タイミングよくそこに配属されたので、入社当時からずっと関わっています。ただ、最初は別の技術を担当していて、2年目ぐらいからエコーキャンセラーの開発にも関わるようになって、今のステレオエコーキャンセル技術につながっています。自然な流れでした。

― 開発する中で、難しさや苦労された点はどんなところですか。

エコーキャンセラーの難しさは、やっぱりマイクにスピーカーからの音と話者の音が両方混ざってしまう点です。マイクに収音された音のうち、スピーカーから出た音声成分だけを消し去るというのが ステレオエコーキャンセル技術ですが、話者の音をひずませ ないようにすることと、スピーカーからの音を綺麗に消すこと、この二つのトレードオフを両立させることがとても難しいです。ステレオエコーキャンセル技術の開発部隊ができる前も、元となる技術はありました。ベースとなるものがありましたが、我々の開発部隊ができて、中身を一新したんです。

― 何か大きな変化や体制の見直しがあったのでしょうか。

少し話が反れてしまうかもしれませんが、入社1年目に関わってた製品があり、実は、その時に、お客さまにお叱りを受けた経験をしました。今までと違ったユースケースで、想定外の環境ということもあったのですが、お客さまからすると不安な動作をしてしまったのですよね。その時に経験とノウハウに頼ったやり方をしていた、と気付きました。

この経験がとても勉強になりました。エコーキャンセラーの開発を改めて行うという状況になった時、少なくとも自分自身は今までのような開発の仕方をやめて、なるべく経験やノウハウに頼らず、正確にデータを推定して、お客さまに満足していただけるよりよいものを作りたいと考えました。それができないとこの開発は終わらない、と思ったんです。この経験があったからこそ、新しいやり方で開発をやってみようというきっかけになりましたし、そこにこだわった結果、 納得できるものができて、今につながっています。

― 貴重な経験ですね。

そうですね。ただ、タイミングよく部署が新しくできて、みんなで一から作っていく、という状況でした。先輩たちが作ってきた技術に少しずつ入っていく、というのが普通かもしれませんが、その時は、みんなでチームになって新しいことに取り組みました。スタートが一緒ですごく環境も良かったし、一体感があって、当時のメンバーみんなで作り上げたものだと思います。

コロナ前後で変わった「音」に対する反応

― コロナ禍でオンライン会議システムが定着し、一般の方の理解もとても進みました。同時に、コミュニケーションにおける「音」の重要性が認識されたのではないか思います。このような社会の変化についてはどのように感じていますか。

我々は「自然さ」にこだわってこの技術を開発してきましたが、以前より今の方が音質の良さをほめてもらえることが多いです。「何か明らかに違うね」と、昔よりも驚いてもらえるといいますか、技術の高さを理解してもらえるようになったのかな、と思いますね。

自分の声が戻らない(エコーがない)ということは、今、対面でお話ししているように、普通の会話からしたら当たり前ですよね。それが自然過ぎて、これまで技術的に難しいことが分かりにくかったと思うんです。コロナ禍で皆さんオンラインでのやりとりを 経験されたことで、その結果、改めて「すごいね」と言ってもらう機会が増えたのはすごく嬉しいです。

― 人間の耳と脳と同じことを実現しようとしていると考えると、すごいことですね。

そうですね。この技術が搭載された商品が出て、営業担当たちから「もう明らかに音が良くなったよ」と言ってもらえたり、「すごく良くなったとお客さまが仰ってたよ」とフィードバックを聞かせてもらえたときが一番嬉しいです。

MUSVIのメンバーからもそういう話を聞くと、開発して良かったなと思います。「窓」は体験しないとわからないという難しさはありますが、「音」ですので、実際に聞いてもらってこそだと考えます。

― 「音がすごいんですね」と仰る「窓」のお客さまは多いです。「臨場感」や「自然な音質」を大事にしている技術だからこそ、人に寄り添う技術であることをお客さまは体感して、深く感動されるのではないかと思いました。

こういうシステムで一番目立つのは「映像」で、最初はそこに興味を持ってもらうことが多いですが、実際に体験すると、「一番大事なのは音だね」と言われます。最初は目立たないのですが、裏で重要な役割をしていると思います。

― お客さまの声はどのように参考にされていますか。

我々は事業部で開発してるので、お客さまのフィードバックをもらいやすい環境にあります。技術開発して終わりではなくて、お客さまの声を聞いて、また性能を上げていく。良くなったものをまた使ってもらって、新しい使い方が出てきたらそこに対応していく。そういうやり方で技術も進化してきました。

使ってもらって、フィードバックや新しい使い方を提案してもらえるMUSVIとの連携はすごく良いと思います。MUSVIにはR&D出身のメンバーがいっぱいいて、技術に対する感度も高いですよね。だから、技術を使ってもらって終わりではない。MUSVIの成長に合わせて技術もちゃんと成長させていこう、と考えている人たちなので、 一緒に進化していけたら、やっぱり嬉しいですよね。

遠隔であることを全く感じさせないクオリティを目指して

― ソニーのステレオエコーキャンセル技術は世界トップレベルだと思いますが、他社の技術動向やレベルは気になりますか。ここまで時間をかけて培ってきたものなので、なかなか追随できないものでしょうか。

我々としては、「もっとリアルなコミュニケーションを実現していくために、自分たちは何すべきか」というのがあるので、自分たちが目指している世界に向けて開発しています。また、細部まで一つ一つこだわって作ってきたことを自負しています。周波数特性もそうですし、音を聞きやすくするためにはどうしたらいいのか、必要のない音というのは何なのか、一つ一つ積み上げてきました。

最近のAI技術など使えば、ある程度のものは開発できる可能性はありますが、我々にはお客さまの声を相当聞いて育ってきた技術という強みがあります。過酷な環境も含めてどう使われてきたか、という経験が当社のアルゴリズムに含まれていますので、その点はソニー独自の強みだと思います。

ステレオエコーキャンセル技術は、いろいろな用途で使われて、それに対応できるよう進化してきました。MUSVIでの使われ方もそうです。これからも自分たちの実現したい世界に向けて開発しています。

― 数多くのユースケース、多様な用途も含めて、膨大な蓄積とそれに基づく地道な開発があるということですね。改めてソニーの歴史が詰まった技術だと感じました。最後に、今後の研究開発の方向性やご自身の思いをお聞かせください。

「臨場感」をもっと追求していきたいです。「窓」のような遠隔通話で使ってもらうのであれば、それを全く感じさせないようなクオリティまで行きたい。どんどん進化させていきたいと思っていますし、まだまだできる余地があると思います。

― MUSVIとしてはとても心強いです。今後の展開に期待しています。ところで、プライベートでも音にこだわったり、音楽がお好きなのでしょうか。

昔から音楽が好きで、趣味でドラムをずっとやっています。大学も音の研究に進み、その延長でバンドを組んだり、作曲もしていました。音に関わることが昔から好きだったんですよね。

― ドラム、大事ですよね。音楽を作る上での土台ですから。

そうですね。裏から支えるという意味では、今に繋がってるいるかもしれません。

― 音へのこだわりの原点ですね。本日は貴重なお話をありがとうございました。
櫻庭さんとMUSVIメンバー

※「ソニー」および「Sony」、並びにこの記事上で使用される商品名、サービス名およびロゴマークは、ソニーグループ株式会社またはその関連会社の登録商標または商標です。

TOP