声質変換論文まとめ3

WaveNet Vocoder with Limited Training Data for Voice Conversion, 2018_9

概要

複数話者コーパスと少数のターゲット音声を利用してWaveNet-Vocoderを構成する。
これによって行われる声質変換はSTRAIGHTなどの従来のボコーダーより優れていた。
VCC 2018で提出されたすべてのシステムの中で最高である4.13の平均自然度MOSを達成。

貢献

話者依存WaveNet-Vocoderは訓練に比較的多くのデータを必要とする。
話者非依存WaveNet-VocoderはSTRAIGHTなどの従来のボコーダーと同等の精度にとどまる。
複数話者コーパスと少数のターゲット音声で話者依存WaveNet-Vocoderを作成することでSTRAIGHTを超える性能を達成した。

提案概要

f:id:CH1008:20200529155248p:plain
VC using WaveNet-Vocoder
マルチスピーカーデータセットを使用した初期化モデルのトレーニングと、参照スピーカーの制限されたトレーニングデータを使用した適応という2つのステップが含まれます。本研究では、STRAIGHTボコーダーによって抽出された音響特徴(mel-cepstraおよびF0)を中間表現特徴として使用します。初期化モデルを取得するために、統合されたWaveNetボコーダーモデルが最初にマルチスピーカーデータセットでトレーニングされます。スピーカーの埋め込みベクトルで増強された音響特性は、条件入力として使用されます。
話者埋め込みベクトルが話者関連情報をキャプチャできることが期待されます。次に、これらの学習した話者埋め込みベクトルは破棄され、音響特性を処理するモデルパラメーターのみが、適応のための初期モデルパラメーターとして使用されます。適応ステップでは、参照スピーカーからのトレーニングデータを使用してすべての初期モデルパラメーターを更新することにより、スピーカーに依存するWaveNetボコーダーがトレーニングされます。

評価

VCC 2018優勝

関連研究

文脈事後確率に基づくmany2one VC
このフレームワークに近いらしい、話者非依存の音声情報抽出のための教師あり文字起こしあたり?