RTVC 中 ASV 和 TTS 模塊結合使用的調研示例分析

發布時間：2022-01-14 22:30:12 來源：億速云閱讀：153 作者：柒染欄目：大數據

本篇文章為大家展示了RTVC 中 ASV 和 TTS 模塊結合使用的調研示例分析，內容簡明扼要并且容易理解，絕對能使你眼前一亮，通過這篇文章的詳細介紹希望你能有所收獲。

0. 說明

不知道如何克服 ASV 的輸出 SV Vector 應用到 TTS 后, 合成時候的 Unseen Speaker 問題

背景描述:

不管是 M2VoC 還是音色遷移版本 Cross-lingual TTS, 均可以

先用 ASV 得到音色向量
這個向量不一定需要表述音色, 只需要同一個人集中就好
然后這個向量結合文本參與 TTS 的訓練, 讓 TTS 熟悉向量
但是如果未見過的說話人, 就需要 ASV 提取的比較準, 并且 TTS 的地方見到的人比較多
比如 ASV 提取向量, 并且尋找離他最近的, 然后用他代替
提取向量在訓練的時候, 是當前句子的向量, 但是 Inference 的時候可以隨機取 20 句話, 然后取平均

因此調研下文獻以及討論

1. 總結現象

哪些 SVV 導致 Good Case
哪些 SVV 導致 Bad Case
都記錄下來, 進行觀察和二分類

2. 調研前的想法

2.1. 增多數據

不用更改思路, 增多 VCTK 類似的思路, 仔細訓練

主要貢獻可以體現在

公開數據集的收集
處理
以及使用
最終 Test 集的構建上

2.2. SVV 找最近

不用本身提取的 SVV, 尋找他最近的那個

2.3. 多個 ASV

一個抓去不夠, 參考的少, 使用多個
其中多個可以有中文的, 英文的

2.4. GST

使用 ASV 得到 SVV, 然后不直接使用 SVV, 而是通過 Attention 將 SVV 表示成幾個 GST 的加權和, 然后參與 TTS

2.5. ASV Fine-Tune

訓練的時候允許 ASV 進行梯度回傳的修改

不過這個方法 TTS 語料只有 100 說話人級別, 而 ASV 語料都是 7000 級別, 因此不好訓

3. LibriSpeech TTS

但是之前有人做到過很好的跨語言效果, 并且并沒有用到這么多說話人
不過先用吧, 看能不能出效果

上述內容就是RTVC 中 ASV 和 TTS 模塊結合使用的調研示例分析，你們學到知識或技能了嗎？如果還想學到更多技能或者豐富自己的知識儲備，歡迎關注億速云行業資訊頻道。

向AI問一下細節

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

RTVC 中 ASV 和 TTS 模塊結合使用的調研示例分析

0. 說明

1. 總結現象

2. 調研前的想法

2.1. 增多數據

2.2. SVV 找最近

2.3. 多個 ASV

2.4. GST

2.5. ASV Fine-Tune

3. LibriSpeech TTS

猜你喜歡

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

RTVC 中 ASV 和 TTS 模塊結合使用的調研示例分析

0. 說明

1. 總結現象

2. 調研前的想法

2.1. 增多數據

2.2. SVV 找最近

2.3. 多個 ASV

2.4. GST

2.5. ASV Fine-Tune

3. LibriSpeech TTS

猜你喜歡

最新資訊

相關推薦

相關標簽