DNN(ディープニューラルネットワーク)を使用したリアルタイム音声変換のデモ動画です。
いかがですか?
すごいですね。
今回のこのプログラムは、東京大学大学院情報理工学系研究科とDMM.comの社会連携講座で開発されたとの事。
動画前半では女性の声に、後半では別の男性の声にリアルタイムで変換しています。(撮影:日経 xTECH)
デモに使用した変換後の女性の声は、日経 xTECHのバーチャル記者「黒須もあ(β)」の声を使用。
デモには一般的なノートパソコンを利用している。
動画内の音声の遅れ(数十mscくらいでしょうか?)は変換の遅延ではなく、ノートパソコンの音声入出力デバイスドライバーによる遅延だと説明されています。
それを真に受ければ、、、ですが、我々が普段使用しているオーディオインターフェースを使用すればソフトシンセ同様のレーテンシーでの変換が可能なはずです。
前々からお伝えしている通り、音声変換や音声合成は今後のAI音楽にとって非常に重要です。
与えるインパクトは現在の自動作曲以上のものになる可能性があります。
引き続き注目を。