声質変換

www.youtube.com

狩野英孝ってYouTubeチャンネル持ってたのか
しかも意外と面白いぞ
DbDが好きなのか

本題

qiita.com
結構頻繁に更新している声質変換のqiita記事
って思ってみてみると、やっぱりbecome-yukarinか

うーん

リンクをつらつら聴いてみても、
うーん、以外の感想がでない
これだったらvoice-cloningのほうがいいな

github.com

いいこといいんだけど、
こっちはこっちで文字入力が必要な関係で、
精度の良いASRが必要になってくるのと、

もっとも俺が問題視していることが、
おそらく、朗読以上のクオリティがだせない
読み上げに特化した音声合成は、もはや俺の求めるところではない
生きた声がつくりたいんだ


と、まあ、

もうそんなこんなで、
調べては手を付けてみてるが、どうにもそれっぽい文献が見当たらない

ノンパラレルは文献が多く、
StarGANの応用でこんなのがあった
github.com

これはなかなかの精度だが、
サンプルがやっぱり朗読なのでまだ半信半疑
命が芽生えるかどうかはコードを見る限りでは想像もできない
正直、こんな単純な構造でこのクオリティは信じきれない
かなり限定された手法じゃないのか?

どうなんだろう
命を吹き込めるアーキテクチャが、そろそろでてきてもいいんじゃないか