2020/06/01
2020/07/18
【独占】AIが声質変換、わずか5秒の音声でーvoiceware田村一起CEOインタビュー
ディープラーニング(深層学習)を使った声質変換技術で、わずか5秒という短時間の音声データからヒトの声を再現・復元する人工知能(AI)「One’s Voice」を開発した企業が東京・調布にある。電気通信大学発のベンチャー、voicewareだ。
声質変換は、発話内容はそのままに、まるで別人が話しているかのように音声を修正する技術。voicewareの田村一起代表取締役社長・最高経営責任者(CEO)はこのほど、AVILEN AI Trendの独占インタビューに応じ、「声を失くした人や、亡くなった人など、既に失われた声を再現するというところに特化してやっています」と話す。
目次
「One’s Voice」ー6月にも正式リリース目指す
田村CEOは、開発・公開中の声質変換AI「One’s Voice」(α版)について、同社の中鹿亘最高技術責任者(CTO)が准教授として教鞭を執る電気通信大学と共同実施しているPoC(概念実証)での高精度化を加速させ、早ければ6月中にも正式リリースしたい考えを明らかにした。
「音素」と「声色」のみ抽出して変換
「声というのは、いくつかに分解できるのですが、声の中から、何をしゃべっているかという『音素』と、その人独自の『声色』のみを取り出して、置き換えるのです」ーー。田村CEOは「One’s Voice」の特長をこう解説する。
その上で、「紅白歌合戦に『AI美空ひばり』が登場しましたが、美空ひばりさんのような有名な方だと、いっぱい声が残っているのですが、そうではない人って、あまり残っていないと思うんです。それでも音声データが5秒ほど残っていれば、voicewareの技術で再現できます」と胸を張る。
入力音声が出力音声になるようモデル学習ー中鹿准教授
voicewareの中鹿CTOは電気通信大学のウェブサイトで、声質変換技術を解説。それによると、多くの研究では、声質変換は、変換元の話者(入力話者)と、変換先の話者(出力話者)の関係性をモデル化し、入力話者の音声が出力話者の音声となるようモデル学習を行うもの。一般には入力話者音声・出力話者音声の対データ(パラレルデータ)が必要だが、パラレルデータが不要な声質変換を実現するためのモデル「適応型制限ボルツマンマシン」を定義した。
「適応型制限ボルツマンマシン」は複数の話者の音声を使い、話者に依存しないパラメータと話者に依存したパラメータを同時に推定することで、「音韻」と「話者性」それぞれの情報を分離でき、入力した音声に対して、音韻情報はそのままに、話者情報のみを目的のものに切り換えるだけで、声質変換が可能だと指摘する。
「声も着替える時代」目指す
「voicewareが目指してる世界観は、誰でも自分の声を選べる時代です。服を着替えるように、声も着替えられる時代が来たら面白いなって思っています」ーー。田村CEOが唱える「声を選べる時代」の到来が待ち遠しい。
田村CEOの主な発言は次の通り。
――事業内容を教えてください。
voicewareでは、声質変換に取り組んでいます。自分の声を誰かの声に変える技術で、それをAIの技術を使って実現するもので、イメージしやすい例で言うと「名探偵コナン」の蝶ネクタイ型変声機みたいなかたちですね。しゃべっている内容はそのままに、声質だけを他の人に変えるような技術に取り組んでいます。
――「One’s Voice」の強みは?
技術の特徴は、学習のためのデータ量がすごく少なくていいところがです。一般的に音声変換で高品質なものを作ろうとすると、音声合成と同じようなステップが必要になって、決められた文言を読み上げて、それを数十分のデータを用意しておくことが必要になります。変換元と変換先の人のデータがそれぞれ必要になるのですが、voicewareの技術ですと、5秒ぐらいのデータでもいいようにというところで、今、品質上げているところなのですが、研究開発しています。
失われた声、亡くなった人の声の再現に特化
――「One’s Voice」の提供先は?
現在、α版を公開しています。声を失くした人や亡くなった人など、既に失われた声を再現するというところに特化してやっています。亡くなった方などは、声のデータは、普通の方はそんなに残っていません。
紅白歌合戦に「AI美空ひばり」が登場しましたが、美空ひばりさんのような有名な方だと、いっぱい声が残っているのですが、そうではない人って、あまり残っていないと思うんです。それでも音声データが5秒ほど残っていれば、voicewareの技術で再現できますので、そのところに特化していきたいということで、失われた声を再現するところに向けてやっています。
今、電気通信大学の方から特許申請中です。
クリムゾン、グリーなども提供ー声質変換
――声質変換AIを提供する他の企業は?
サービスを提供しているところで言うと、2~3社ぐらいあります。それのターゲットも、バーチャルユーチューバーをターゲットしているものがほとんどというか、それしかないですね。エンタメのほうがニーズは多いのです。
例えば、クリムゾンテクノロジーです。「リアチェンvoice」というのを出していますし、あとグリーさんですね。グリーさんも、「転声こえうらない」というサービスを提供しています。あと、DMMさんとかも、特定のサービスではないですが、取り組んでいます。
――「One’s Voice」の他社サービスとの違いは?
他の企業のやり方として、考えられるのは、音声合成みたいに発音する内容「あ」とか「い」とか、そういう言葉に合わせて、「この声だったらこう変換する」ということをやっているところが多いですね。この人の「あ」という声と、別の人の「あ」という声を対応させるみたいにです。このため変換先となる人の音声データとして、決められた文章を読み上げたデータ、あるいは大量のデータが必要だったりするのです。
voicewareの場合、声というのは、いくつかに分解できるのですが、声の中から、何をしゃべっているかという「音素」と、その人独自の「声色」のみを取り出して、置き換えているんです。このため少ないデータ量で、そこの特徴量だけを取り出すということができるので、それで発声させるという形です。
α版という形で、提供しています。まだ企業には使ってもらっていなくて、知り合いなどに使ってもらっているっていう段階です。
電気通信大と連携
――voicewareの開発メンバーは?
voicewareは電気通信大学発ベンチャーということで、大学と提携しながらやっているのですが、大学で1人研究員を雇っています。業務委託のメンバーが約3人です。
voicewareの中鹿亘CTOは電気通信大学の大学助教です。もともとは彼が開発した技術を使っています。論文「クラスタ適応制限ボルツマンマシンを用いた話者クラスタリングと声質変換への応用」があります。
voicewareの所在地も電気通信大学内です。設立は2017年7月ですので、もうすぐ3年です。
声質変換の社会実装が目標
――業績と事業計画、その先のIPO(新規株式公開)への考えは?
今のところ、実は、IPOを目指しているわけではないんです。資金調達なども、特に今のところはしていません。必要であればやろうと思っていますが、今のところ、自己資金と、政策金融公庫から借り入れをして回っているので、それで研究開発を進めているという形です。
もともとの成り立ちが、「voicewareの中鹿CTOの研究を世の中に出していきたい。それを社会実装していきたい」っていうことで立ち上げた会社です。これを実現するのが、まず第一の目標です。
声質変換は今、世の中でそんなに一般的ではない技術ですし、いくつかサービスもあるのですが、そんなに認知もされていないような技術なので、こういうものがあることを知ってもらって、「面白い」と思ってもらえたらいいな、くらいの形です。
AI人材不足は確かー開発者採用で実感
――日本企業のAI導入・AI人材育成をどう見ますか?
今、ちょっと落ち着いていますが、昨年とおととしぐらいは、結構AIブームと呼ばれていたので、「導入しよう」みたいな動きは結構あったので、導入に対してすごく積極的なところは増えたのかなと思っています。
AIにできないことなども、だいぶ分かってきたのかなと。何でもかんでもAIだったらできるでしょみたいなところは、ちょっと過ぎて、加熱しすぎみたいなところは落ち着いて、今、ちゃんとAI技術っていうのがツールとして、ソリューションの1つとして認知されてきたんじゃないかなと感じてます。
AI人材は、もっと必要になってくると思いますね。人材不足は確かだなとは思っていて、特にわれわれのやっている音声系って、とても少ないんです。voicewareも開発者採用するのにとても苦労しました。なので、大学で取り組むというのが、すごく取っ掛かりとしては大事なのかなと思っています。
ただ、大学の研究員って、報酬から見ても、知識レベルに対して社会的評価が低いように思います。大学発ベンチャーとして、研究者の成果・スキルを発信する場としても貢献していきたいと考えています。
――「One’s Voice」の営業展開は?
今、α版を公開してるんですが、まだ、もうちょっとプログラムの精度を上げていかないといけないなと思っています。
もともと6月に正式リリースしようと思っていたのですが、それもちょっと延びそうなので、タイミングを見計らっているところです。
法人向けサービスなので、戦略的にはPRを重点的にやっていこうと思っています。使いたいと言ってくれているところが今時点でも結構いるので、ある程度品質上がって、これなら使えるというレベルになれば、導入してくれるところは増えると思っています。
「服を着替えるように、声も着替える時代」を
――最後に強くアピールしたいことは?
voicewareが目指してる世界観は、誰でも自分の声を選べる時代です。服を着替えるように、声も着替えられる時代が来たら面白いなって思っています。そういう価値観もあるとうところをすごく知ってもらいたいと思います。
Recommended