您好,登錄后才能下訂單哦!
本篇文章為大家展示了RTVC 中 ASV 和 TTS 模塊結合使用的調研示例分析,內容簡明扼要并且容易理解,絕對能使你眼前一亮,通過這篇文章的詳細介紹希望你能有所收獲。
不知道如何克服 ASV 的輸出 SV Vector 應用到 TTS 后, 合成時候的 Unseen Speaker 問題
背景描述:
不管是 M2VoC 還是 音色遷移版本 Cross-lingual TTS, 均可以
先用 ASV 得到音色向量
這個向量不一定需要表述音色, 只需要同一個人集中就好
然后這個向量結合文本參與 TTS 的訓練, 讓 TTS 熟悉向量
但是如果未見過的說話人, 就需要 ASV 提取的比較準, 并且 TTS 的地方見到的人比較多
比如 ASV 提取向量, 并且尋找離他最近的, 然后用他代替
提取向量在訓練的時候, 是當前句子的向量, 但是 Inference 的時候可以隨機取 20 句話, 然后取平均
因此調研下文獻以及討論
哪些 SVV 導致 Good Case
哪些 SVV 導致 Bad Case
都記錄下來, 進行觀察和二分類
不用更改思路, 增多 VCTK 類似的思路, 仔細訓練
主要貢獻可以體現在
公開數據集的收集
處理
以及使用
最終 Test 集的構建上
不用本身提取的 SVV, 尋找他最近的那個
一個抓去不夠, 參考的少, 使用多個
其中多個可以有中文的, 英文的
使用 ASV 得到 SVV, 然后不直接使用 SVV, 而是通過 Attention 將 SVV 表示成幾個 GST 的加權和, 然后參與 TTS
訓練的時候允許 ASV 進行梯度回傳的修改
不過這個方法 TTS 語料只有 100 說話人級別, 而 ASV 語料都是 7000 級別, 因此不好訓
但是之前有人做到過很好的跨語言效果, 并且并沒有用到這么多說話人
不過先用吧, 看能不能出效果
上述內容就是RTVC 中 ASV 和 TTS 模塊結合使用的調研示例分析,你們學到知識或技能了嗎?如果還想學到更多技能或者豐富自己的知識儲備,歡迎關注億速云行業資訊頻道。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。