【独占】AIが声質変換、わずか５秒の音声でーvoiceware田村一起CEOインタビュー

ディープラーニング（深層学習）を使った声質変換技術で、わずか５秒という短時間の音声データからヒトの声を再現・復元する人工知能（AI）「One’s Voice」を開発した企業が東京・調布にある。電気通信大学発のベンチャー、voicewareだ。

声質変換は、発話内容はそのままに、まるで別人が話しているかのように音声を修正する技術。voicewareの田村一起代表取締役社長・最高経営責任者（CEO）はこのほど、AVILEN AI Trendの独占インタビューに応じ、「声を失くした人や、亡くなった人など、既に失われた声を再現するというところに特化してやっています」と話す。

1 「One’s Voice」ー６月にも正式リリース目指す
2 「音素」と「声色」のみ抽出して変換
3 入力音声が出力音声になるようモデル学習ー中鹿准教授
4 失われた声、亡くなった人の声の再現に特化
5 クリムゾン、グリーなども提供ー声質変換
6 電気通信大と連携
7 声質変換の社会実装が目標

「One’s Voice」ー６月にも正式リリース目指す

田村CEOは、開発・公開中の声質変換AI「One’s Voice」（α版）について、同社の中鹿亘最高技術責任者（CTO）が准教授として教鞭を執る電気通信大学と共同実施しているPoC（概念実証）での高精度化を加速させ、早ければ６月中にも正式リリースしたい考えを明らかにした。

「音素」と「声色」のみ抽出して変換

「声というのは、いくつかに分解できるのですが、声の中から、何をしゃべっているかという『音素』と、その人独自の『声色』のみを取り出して、置き換えるのです」ーー。田村CEOは「One’s Voice」の特長をこう解説する。

その上で、「紅白歌合戦に『AI美空ひばり』が登場しましたが、美空ひばりさんのような有名な方だと、いっぱい声が残っているのですが、そうではない人って、あまり残っていないと思うんです。それでも音声データが５秒ほど残っていれば、voicewareの技術で再現できます」と胸を張る。

入力音声が出力音声になるようモデル学習ー中鹿准教授

voicewareの中鹿CTOは電気通信大学のウェブサイトで、声質変換技術を解説。それによると、多くの研究では、声質変換は、変換元の話者（入力話者）と、変換先の話者（出力話者）の関係性をモデル化し、入力話者の音声が出力話者の音声となるようモデル学習を行うもの。一般には入力話者音声・出力話者音声の対データ（パラレルデータ）が必要だが、パラレルデータが不要な声質変換を実現するためのモデル「適応型制限ボルツマンマシン」を定義した。

「適応型制限ボルツマンマシン」は複数の話者の音声を使い、話者に依存しないパラメータと話者に依存したパラメータを同時に推定することで、「音韻」と「話者性」それぞれの情報を分離でき、入力した音声に対して、音韻情報はそのままに、話者情報のみを目的のものに切り換えるだけで、声質変換が可能だと指摘する。

「声も着替える時代」目指す

「voicewareが目指してる世界観は、誰でも自分の声を選べる時代です。服を着替えるように、声も着替えられる時代が来たら面白いなって思っています」ーー。田村CEOが唱える「声を選べる時代」の到来が待ち遠しい。

田村CEOの主な発言は次の通り。

――事業内容を教えてください。

voicewareでは、声質変換に取り組んでいます。自分の声を誰かの声に変える技術で、それをAIの技術を使って実現するもので、イメージしやすい例で言うと「名探偵コナン」の蝶ネクタイ型変声機みたいなかたちですね。しゃべっている内容はそのままに、声質だけを他の人に変えるような技術に取り組んでいます。

――「One’s Voice」の強みは？

技術の特徴は、学習のためのデータ量がすごく少なくていいところがです。一般的に音声変換で高品質なものを作ろうとすると、音声合成と同じようなステップが必要になって、決められた文言を読み上げて、それを数十分のデータを用意しておくことが必要になります。変換元と変換先の人のデータがそれぞれ必要になるのですが、voicewareの技術ですと、５秒ぐらいのデータでもいいようにというところで、今、品質上げているところなのですが、研究開発しています。

失われた声、亡くなった人の声の再現に特化

――「One’s Voice」の提供先は？

現在、α版を公開しています。声を失くした人や亡くなった人など、既に失われた声を再現するというところに特化してやっています。亡くなった方などは、声のデータは、普通の方はそんなに残っていません。

紅白歌合戦に「AI美空ひばり」が登場しましたが、美空ひばりさんのような有名な方だと、いっぱい声が残っているのですが、そうではない人って、あまり残っていないと思うんです。それでも音声データが５秒ほど残っていれば、voicewareの技術で再現できますので、そのところに特化していきたいということで、失われた声を再現するところに向けてやっています。

今、電気通信大学の方から特許申請中です。

クリムゾン、グリーなども提供ー声質変換

――声質変換AIを提供する他の企業は？

サービスを提供しているところで言うと、２～３社ぐらいあります。それのターゲットも、バーチャルユーチューバーをターゲットしているものがほとんどというか、それしかないですね。エンタメのほうがニーズは多いのです。

例えば、クリムゾンテクノロジーです。「リアチェンvoice」というのを出していますし、あとグリーさんですね。グリーさんも、「転声こえうらない」というサービスを提供しています。あと、DMMさんとかも、特定のサービスではないですが、取り組んでいます。

――「One’s Voice」の他社サービスとの違いは？

他の企業のやり方として、考えられるのは、音声合成みたいに発音する内容「あ」とか「い」とか、そういう言葉に合わせて、「この声だったらこう変換する」ということをやっているところが多いですね。この人の「あ」という声と、別の人の「あ」という声を対応させるみたいにです。このため変換先となる人の音声データとして、決められた文章を読み上げたデータ、あるいは大量のデータが必要だったりするのです。

voicewareの場合、声というのは、いくつかに分解できるのですが、声の中から、何をしゃべっているかという「音素」と、その人独自の「声色」のみを取り出して、置き換えているんです。このため少ないデータ量で、そこの特徴量だけを取り出すということができるので、それで発声させるという形です。

α版という形で、提供しています。まだ企業には使ってもらっていなくて、知り合いなどに使ってもらっているっていう段階です。