声質変換論文まとめ2
PARALLEL-DATA-FREE VOICE CONVERSION USING CYCLE-CONSISTENT ADVERSARIAL NETWORKS, 2017_12
概要
Cycle-GAN + Gated CNN でノンパラレル声質変換を行った。
客観的な評価により、変換された特徴シーケンスは、グローバル分散と変調スペクトルの点でほぼ自然であることがわかりました。主観的な評価により、変換された音声の品質は、ガウス混合モデルベースの方法で得られた、パラレルで2倍のデータ量の有利な条件下で得られる品質に匹敵することが示されました。
手法概要
損失として
- Adversarial loss
- Cycle-consistency loss
- Identity-mapping loss
を使用。
入出力
WORLD解析システムを用いて、24個のメルセプトストラル係数(MCEPs)、対数基本周波数(log F0 )、アペリオディシティ(APs)を5ms毎に抽出した。これらの特徴のうち、我々の手法を用いてMCEP領域のマッピングを学習した。F0は対数ガウス正規化変換を用いて変換した。APを変換しても音声品質に大きな影響を与えないことが先行研究で示されているため、アペリティはそのまま使用した。
Voice Conversion from Non-parallel Corpora Using Variational Auto-encoder, 2016_10
概要
ノンパラレルデータで学習するVAEを使用して声質変換を行う。
話者に依存しない音声表現を学習するエンコーダーと、指定された話者を再構成することを学習するデコーダーで構成されます。
以前のほとんどのモデルでは話者アイデンティティは暗黙的に扱われてきた(入力がソースで出力がターゲット的な区別のみ)が、本研究では話者アイデンティティを明示的に扱う。
手法概要
yが話者表現(one-hot vec)
入出力
STRAIGHTツールキット[21]を使用して、STRAIGHTスペクトル(略してSP)、非周期性(AP)、ピッチコンター(F0)などの音声パラメータを抽出しました。 FFTの長さは1024に設定されたため、結果のAPとSPはどちらも513次元でした。フレームシフトは5ミリ秒、フレーム長は25ミリ秒でした。コンテキストまたは動的機能を機能セットに組み込みませんでした。 SPのすべての入力フレームは単位和に正規化され、正規化係数(エネルギー)は独立した機能として取り出され、変更されませんでした。 SPは、提案された方法またはベースラインシステムを使用して変換されました。ベースラインシステムでは線形(非負)SPを使用したのに対し、提案した方法ではさらにSPに対数を適用したことに注意してください。すべてのシステムは、log-F0ドメインで同じ線形平均分散変換を使用してF0を変換しました。 APは変更されませんでした。スペクトル変換後、エネルギーはSPに補正され、STRAIGHTはすべてのパラメーターを取り込んで発話を合成しました。
実験
Voice Conversion Challenge 2016(並列データ)を使用。
- 2人の話者についての並列だが非整列なデータ[VAE-pair]
- 4人の話者についての並列だが非整列なデータ
- 2人の話者についての非並列なデータ(使用データは半分になる)
- ENMF-3000(base line)
の3条件で行った。
評価
mean Mel-cepstral distortion (MCD)はどの手法もほぼ同等
VAE-pairとENMF-3000の主観評価は音質、声質共にほぼ同等