声質変換
狩野英孝ってYouTubeチャンネル持ってたのか
しかも意外と面白いぞ
DbDが好きなのか
本題
qiita.com
結構頻繁に更新している声質変換のqiita記事
って思ってみてみると、やっぱりbecome-yukarinか
うーん
リンクをつらつら聴いてみても、
うーん、以外の感想がでない
これだったらvoice-cloningのほうがいいな
いいこといいんだけど、
こっちはこっちで文字入力が必要な関係で、
精度の良いASRが必要になってくるのと、
もっとも俺が問題視していることが、
おそらく、朗読以上のクオリティがだせない
読み上げに特化した音声合成は、もはや俺の求めるところではない
生きた声がつくりたいんだ
と、まあ、
もうそんなこんなで、
調べては手を付けてみてるが、どうにもそれっぽい文献が見当たらない
ノンパラレルは文献が多く、
StarGANの応用でこんなのがあった
github.com
これはなかなかの精度だが、
サンプルがやっぱり朗読なのでまだ半信半疑
命が芽生えるかどうかはコードを見る限りでは想像もできない
正直、こんな単純な構造でこのクオリティは信じきれない
かなり限定された手法じゃないのか?
どうなんだろう
命を吹き込めるアーキテクチャが、そろそろでてきてもいいんじゃないか