声質変換論文まとめ1

Voice Conversion from Unaligned Corpora using Variational Autoencoding Wasserstein Generative Adversarial Networks, 2017_6

概要

非並列データ学習によるVAW-GAN(W距離を使用したVAE-GAN)の声質変換手法を提案する.

貢献

  • W-GANを非並列音声合成に導入し,なぜW-GANがこのタスクに適合するのかを明らかにする.
  • より現実的なスペクトルを合成するためのW-GANの能力を実証する.

手法概要

ソース音声より phonetic content vector z をVAEにより抽出し、 speaker representation vector y と組み合わせて vocoder に入力することで声質変換を行う.
なおphonetic content という用語は、音声が自然で、ノイズがなく、非感情的なものである場合にのみ有効である.

CVAEと同じ仕組みで z には speaker representation vector y のもつ情報以外が集約される(ことを期待する).

入出力

STRAIGHTツールキットを使用して、STRAIGHTスペクトル(略してSP)、アペリオディシティ(AP)、ピッチコンター(F0)を含む音声パラメータを抽出した.
FFTの長さは1024に設定されており、結果として得られるAPとSPはともに513次元であった。フレームシフトは5ms、フレーム長は25msとした.
対数エネルギー正規化SP(logSPenで示される)を[-1、1]の範囲で次元ごとに再スケーリングした.
SPを変換し、log-F0ドメイン上で同じ線形平均分散変換を用いてF0を変換した。APは変更せずに維持した。
STRAIGHTはこれらのパラメータを取り込んで発話を合成した.

訓練

初期はWGAN由来の損失を0にしてCVAEで訓練を行い base line model を得る.その後にWGANを付与して全体の訓練を行う.

結果

自然度のMOS結果は、VAW-GANがVAEベースラインを大幅に上回っていることを示した.
VAW-GANからの出力スペクトルは、周波数軸全体でより豊かな変動を表し、より明確な声と明瞭度の向上を反映している.

主観的な評価と一致しない結果が見つかったため、平均メルケプストラム係数などの客観的な評価は報告していない.
ただし、VCの文献では、これらの評価が人間の聴覚系と一致しない可能性が非常に高いため、同様の不一致が一般的.
話者類似性のパフォーマンスも、[https://www.citi.sinica.edu.tw/papers/yu.tsao/5650-F.PDF:title=[13]]とほぼ同じであることがわかったため、報告されていない.

議論

VAW-GANシステムの出力スペクトルは、VAEシステムの出力スペクトルと比較して分散が大きい.
良くない可能性があるが、高い値はVAW-GANが予測値を平均に集中しすぎないことを示している.

VAW-GANでのスピーカーモデリングの類似性が改善されない理由は、VAEとVAWGANの両方が同じPGM、つまり同じスピーカーモデルを最適化するという事実を思い出させる.
したがって、1つのグローバル変数でスピーカーをモデル化するだけでは不十分な場合がある.
フレーム単位の変数を使用してスピーカーをモデリングすると、音声ベクトルzと競合する可能性があるため、他のPGMに頼らなければならない場合がある.

気になる関連研究

音声認識を利用した声質変換

Statistical Voice Conversion with WaveNet-Based Waveform Generation, 2017_8

概要

ガウス混合モデル(GMM)に基づきソーススピーカーの音響特性をターゲットスピーカーの音響特性に変換し、話者依存型WaveNet vocoderに基づいて声質変換された音声を合成する.
WaveNetボコーダを用いた学習・合成のための音響特徴量の比較を行った.

f:id:CH1008:20200528155423p:plain
手法概要

実験

単純にターゲットmel-cepstrumで訓練したWaveNet VocoderにGMMで変換したmel-cepstrumを入れると精度があまり良くなかった.
これはGMMによるオーバースムーシング効果、この辺を緩和するテクニックをいくつか試している.
またGV(global variance)を考慮したモデルも実験している.

ARCTIC speech databaseを使用.

サンプリング周波数は16 kHzに設定されました。 STRAIGHT [14]は、スペクトルエンベロープを抽出するために使用されました。これは、1〜24番目のメルケプストラム係数にスペクトル特徴としてパラメーター化されました。フレームシフトは5 msでした。音源励振機能として、F0およびSTRAIGHT [27]で抽出された非周期成分を使用しました。非周期成分は、GMMでモデル化するために、0-1、1、2、2-4、4-6、および6-8 kHzの5つの周波数帯域で平均化されました。トレーニングには1028文を使用し、残りの104文は評価に使用しました。

評価

mel-cepstral dis- tortions (Mel-CD)
mean opinion score (MOS)

結果

音質は従来手法と同程度

提案手法は従来手法に比べてはるかに音質の良い変換音声を生成することができるが、これらの手法は時として深刻なうなり音を引き起こす。これらのバジーサウンドは、WaveNetボコーダーのトレーニングデータが少ないことに由来すると考えられます。

話者変換精度

4 : 6で従来手法に勝る

結論

本稿では,ガウス混合モデル(GMM)を用いた音声変換(VC)とWaveNetを用いた波形生成を用いて,音源話者の話者個性を対象話者の話者個性に変換する技術について述べる.本研究では、ガウス混合モデルを用いた音声変換(VC)における話者の個性の変換精度と音質を向上させるために、変換された音響特徴量(変換F0,変換アペリオディシティ,変換メルセプトラム)を条件としたWaveNetボコーダを用いた波形生成技術を提案した。
実験の結果,自然音響特徴量をモデル化に,GVを考慮した変換音響特徴量を合成に用いるWaveNetベースの波形生成技術は,音声変換チャレンジ2016に応募したNU-NAIST VCシステムと比較して,話者の同一性に関する変換精度が高く,同等の音質を実現できることが示された.
今後は、WaveNetベースの波形生成技術の安定性を可能にする技術の実装を予定している。