聲音克隆_論文翻譯：2019_Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis

本文轉載自查看原文 2021-06-08 20:33 1631 論文翻譯

論文：2019_Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis

代碼：Real-Time-Voice-Cloning | Real-Time-Voice-Cloning (中文)

樣本：https://google.github.io/tacotron/publications/speaker_adaptation/

摘要

　　我們描述了一個基於神經網絡的文本到語音(TTS)合成系統，它能夠以不同說話者的聲音生成語音，包括那些在訓練期間看不見的聲音。我們的系統由三個獨立訓練的組件組成：

說話人編碼器網絡(提取說話人特征)，使用獨立的噪聲語音數據集進行說話人驗證任務的訓練，從來自目標說話人幾秒鍾的參考語音中生成固定維度的嵌入向量(說話人語音特征)；
基於Tacotron 2的序列到序列合成網絡，其基於說話者嵌入從文本生成mel譜圖；
基於自回歸waveNet的聲碼器網絡，其將mel頻譜圖轉換成時域波形。

　　我們證明了所提出的模型能夠將通過區分訓練(discriminatively-trained)的說話人編碼器學習到的說話人可變性的知識轉移到多說話人TTS任務，並且能夠從訓練期間看不見的說話人合成自然語音。為了獲得最佳的泛化性能，我們量化了在一個大而多樣的說話人數據集上訓練說話人編碼器的重要性。最后，我們證明了隨機采樣的說話人嵌入可以用於合成不同於訓練中使用的新說話人的語音，這表明該模型已經學習到了高質量的說話人表示。

1 引言

2 多說話人語音合成模型

我們的系統由三個獨立訓練的神經網絡組成，如圖1所示:

(1) 基於[22]的語音特征編碼器，提取說話者的聲音特征信息。將說話者的語音嵌入編碼為固定維度的向量，該向量表示了說話者的聲音潛在特征。

(2) 基於[15]的序列到序列的映射合成網絡，基於Tacotron 2的映射網絡，通過文本和語音特征編碼器得到的向量來生成log mel spectrogram（梅爾譜圖將譜圖的頻率標度Hz取對數，轉換為梅爾標度，使得人耳對聲音的敏感度與梅爾標度承線性正相關關系）

(3) 自回歸WaveNet [19]的自回歸語音合成網絡，將梅爾頻譜圖（譜域）轉化為時間序列聲音波形圖（時域），完成語音的合成。

　　需要注意的是，這三部分網絡都是獨立訓練的，聲音編碼器網絡主要對序列映射網絡起到條件監督作用，保證生成的語音具有說話者的獨特聲音特征。

圖1 模型概述。三個部分都是獨立訓練的

2.1 聲音特征編碼器

　　編碼器主要將目標說話人的參考語音嵌入編碼到固定維度的向量空間，並以此為監督，使映射合成網絡能生成具有相應特征的梅爾頻譜。編碼器的關鍵作用在於相似性度量，對於同一說話者的不同語音，其在嵌入向量空間中的向量距離（余弦夾角）應該盡可能小，而對不同說話者應該盡可能大。此外，編碼器還應具有抗噪能力和魯棒性，能夠不受具體語音內容和背景噪聲的影響，提取出說話者聲音的潛在特征信息。我們發現在與文本無關的說話人驗證任務上訓練的說話人辨別模型滿足這些要求，因此可以進行遷移學習。

　　我們遵循[22]，他們提出了一個高度可擴展並且准確的說話人驗證網絡框架。該網絡可以從任意長度的語音中計算出對數梅爾譜圖幀序列，從而映射到固定維嵌入向量，稱為d-vector[20，9]。該網絡使用廣義端到端說話人驗證損失訓練，使得來自同一說話人的話語的embedding具有高余弦相似性，而來自不同說話人的話語的嵌入在嵌入空間中相距很遠。訓練數據集由分割成1.6秒的語音示例和相關的說話者身份標簽組成。

　　編碼器的輸入是40通道數的 log-mel spectrograms，網絡結構主要由3層 256個單元的LSTM 構成。最后一層是全連接層，全連接層輸出經過L2正則化處理后，即得到整個序列的嵌入向量表示。實際推理時，任意長度的輸入語音信號都會被800ms的窗口分割為多段，重疊50%，每段得到一個輸出，該網絡在每個窗口上獨立運行，輸出被平均和歸一化以創建最終的嵌入向量。

　　雖然網絡沒有直接優化以學習捕獲與合成相關的說話人特征的表示，但我們發現說話人辨別任務訓練的模型生成的embedding適用於根據說話人身份調節合成網絡。

2.2 序列到序列的映射合成網絡

　　我們使用注意力Tacotron 2架構[15]擴展了循環序列到序列，以支持類似於[8]方案的多說話人。目標說話人的嵌入向量在每個時間步長與合成器編碼器輸出連接。與[8]相反，我們將embedding作為注意力層的輸入，如圖1所示，能使網絡對不同的說話者語音收斂。

　　我們比較了該模型的兩種變體，一種是使用說話人編碼器計算embedding，另一種是優化訓練集中每個說話人的固定embedding的基線，本質上是學習類似於[8，13]的說話人embedding查找表。

　　該網絡獨立於編碼器網絡的訓練，以音頻信號和對應的文本作為輸入，音頻信號首先經過預訓練的編碼器提取特征，然后再作為attention層的輸入，我們將文本映射到一系列音素，從而加快收斂速度並改善稀有詞和專有名詞的發音。網絡在遷移學習配置中進行訓練，使用預訓練的說話人編碼器（其參數被凍結）從目標音頻中提取說話人embedding，即說話人參考信號與訓練期間的目標語音相同。訓練期間不使用明確的說話者標識符標簽。

　　網絡輸出頻譜特征由窗口長度為50ms，步長為12.5ms序列構成，通過80通道mel-scale濾波器組，然后進行對數動態范圍壓縮。我們通過用一個額外的L1損失增加預測譜圖上的L2損失來擴展[15]。在實踐中，我們發現這種組合損失能降低噪聲訓練數據對模型的影響。與[10]相反，我們不引入基於說話人嵌入的附加損失項。

2.3 基於WaveNet的自回歸語音合成網絡

　　我們使用逐樣本自回歸WaveNet [19]作為聲碼器，將合成網絡發出的合成mel頻譜圖轉換為時域波形。體系結構與[15]中描述的相同，由30個擴張的卷積層組成。網絡不直接取決於說話人編碼器的輸出。合成器網絡預測的mel聲譜圖捕捉了各種聲音的高質量合成所需的所有相關細節，允許通過簡單地訓練來自許多說話人的數據來構建多說話人聲碼器。

2.4 推理和零觸發說話人適應

　　在推斷過程中，使用任意未被描述的語音音頻來調節該模型，該語音音頻不需要匹配要合成的文本。由於用於合成的說話人特征是從音頻中推斷出來的，所以它可以以來自訓練集之外的說話者的音頻為條件。在實踐中，我們發現使用幾秒鍾持續時間的單個音頻剪輯就足以合成具有相應說話者特征的新語音，這代表了對新說話者的零觸發適應。在第3節中，我們評估了這一過程如何推廣到以前看不到的說話者。

　　圖 2 顯示了推理過程的一個示例，其中顯示了使用幾個不同的 5 秒說話者參考話語合成的頻譜圖。與女性（中置和底部）說話人相比，合成的男性（頂部）說話人頻譜圖具有明顯較低的基頻，可見於低頻更密集的諧波間隔（水平條紋），以及中頻可見的共振峰- 元音中出現的頻率峰值，例如 0.3 秒的“i” - 頂部男性 F2 在 mel 通道 35，而中間說話人的 F2 看起來更靠近通道 40。類似的差異在噝噝聲中也可見，例如0.4 秒處的“s”在男聲中比女聲中包含更多的低頻能量。最后，說話人嵌入也在一定程度上捕獲了特征語速，這可以從與前兩行相比底部行中更長的信號持續時間看出。可以對右欄中相應的參考話語頻譜圖進行類似的觀察。

圖 2：使用所提出的系統以不同的聲音合成句子的示例。 Mel 頻譜圖被可視化用於生成說話人嵌入（左）和相應的合成器輸出（右）的參考話語。文本到頻譜圖的對齊顯示為紅色。使用了從訓練組中取出的三個說話人：一個男性（頂部）和兩個女性（中間和底部）。

3 實驗

　　我們使用了兩個公共數據集來訓練語音合成和聲碼器網絡。VCTK [21]包含了來自109位說話人的44個小時的干凈語音，其中大多數人都有英國口音。我們將音頻下采樣到24千赫，調整前導和尾隨靜音(將中間持續時間從3.3秒減少到1.8秒)，並分為三個子集:訓練、驗證(包含與訓練集相同的說話人)和測試(包含從訓練集和驗證集伸出的11個說話人)。

　　LibriSpeech [12]由兩個“干凈”的訓練集組成，包括來自1172個說話者的436個小時的語音，采樣頻率為16千赫。大多數講話是美國英語，但是由於它來自有聲讀物，同一說話者的不同話語之間的語氣和風格會有很大的不同。我們通過使用ASR模型強制將音頻與抄本對齊，並在靜音時中斷片段，將中值持續時間從14秒減少到5秒，從而將數據重新分段為更短的話語。與原始數據集一樣，成績單中沒有標點符號。說話人集合在訓練、驗證和測試集合中是完全不相交的。

　　LibriSpeech clean語料庫中的許多記錄包含明顯的環境和靜態背景噪聲。我們使用簡單的譜減法[4]去噪過程對目標譜圖進行預處理，其中話語的背景噪聲譜被估計為整個信號的每個頻帶中能量的第10個百分點。該過程僅用於合成目標；原始的嘈雜語音被傳遞給說話人編碼器。

　　我們為這兩個語料庫分別訓練了合成和聲碼器網絡。在本節中，我們使用在音素輸入上訓練的合成網絡，以便在主觀評估中控制發音。對於VCTK數據集，它的音頻非常干凈，我們發現在地面真實mel頻譜圖上訓練的聲碼器工作得很好。然而，對於噪音更大的LibriSpeech，我們發現有必要根據合成器網絡預測的頻譜圖來訓練聲碼器。沒有對聲碼器訓練的目標波形進行去噪。

　　說話人編碼器是在一個專有的語音搜索語料庫上訓練的，該語料庫包含來自美國18K英語使用者的36M話語，平均持續時間為3.9秒。該數據集未被轉錄，但包含匿名的說話者身份。它從未用於訓練合成網絡。

　　我們主要依靠基於主觀聽力測試的眾包平均意見得分評估。我們所有的維護對象評估都符合絕對類別評分標准[14]，評分從1到5，以0.5分為增量。我們使用這個框架從兩個維度來評估合成語音:它的自然度和與來自目標說話人的真實語音的相似度。

3.1 語音自然度

　　我們使用在VCTK和LibriSpeech上訓練的合成器和聲碼器來比較合成語音的自然度。我們構建了一個由100個不出現在任何訓練集中的短語組成的評估集，並為每個模型評估了兩組說話者:一組由訓練集中的說話者組成(可見)，另一組由伸出的說話者組成(不可見)。我們為VCTK使用了11個可見和不可見的說話人，為LibriSpeech使用了10個可見和不可見的說話人(附錄D)。對於每個說話者，我們隨機選擇一個持續時間約為5秒的話語來計算說話者嵌入(見附錄C)。每個短語是為每個說話者合成的，每次評估總共約有1000個合成話語。每個樣本都由一名評分員進行評分，每個評估都是獨立進行的:不同模型的輸出沒有直接比較。結果如表1所示，將建議的模型與基線多說話人模型進行了比較，基線多說話人模型使用了類似於[8，13]的說話人嵌入查找表，但在其他方面與建議的合成器網絡具有相同的架構。所提出的模型在所有數據集上實現了約4.0個月平均壽命，當在可見說話者上評估時，VCTK模型獲得的月平均壽命比LibriSpeech模型高約0.2個點。這是LibriSpeech數據集的兩個缺點的結果:(1)抄本中缺少標點符號，這使得模型很難學會自然暫停；(2)與VCTK相比，背景噪聲水平更高，盡管如上所述對訓練目標進行了去噪，但合成器已經學會了再現其中的一些背景噪聲。

表1：95%置信區間的語音自然度平均意見得分。

　　最重要的是，我們的模型為看不見的說話者生成的音頻被認為至少和為看得見的說話者生成的音頻一樣自然。令人驚訝的是，看不見的說話人的金屬氧化物半導體比看得見的說話人的金屬氧化物半導體高0.2個百分點。這是每個說話者隨機選擇參考話語的結果，其中有時包含不均衡和非中性的韻律。在非正式的聽力測試中，我們發現合成語音的韻律有時會模仿參考語音的韻律，類似於[16]。這種影響在LibriSpeech上更大，因為LibriSpeech包含了更多樣的韻律。這表明，在合成網絡中，必須額外注意將說話者身份從韻律中分離出來，可能通過集成韻律編碼器，如[16，24]，或者通過對來自同一說話者的隨機配對的參考和目標話語進行訓練。

3.2 說話人相似度

　　為了評估合成語音與目標說話者的匹配程度，我們將每個合成話語與來自同一說話者的隨機選擇的基本真實話語配對。每對句子由一名評分員按照以下說明進行評分：“你不應該判斷句子的內容、語法或音頻質量；相反，只需關注說話者之間的相似性。”

　　結果如表2所示。VCTK模型的得分往往高於LibriSpeech，反映了數據集的清潔性質。這一點在VCTK更高的基礎真相基線中也很明顯。對於在VCTK上看到的說話者，所提出的模型的性能與使用嵌入查找表進行說話者調節的基線相當。然而，在LibriSpeech上，所提出的模型獲得了比基線更低的相似性維護對象，這可能是由於更大程度的說話人內部變化(附錄B)和數據集的背景噪聲水平。

表2：95%置信區間的說話者相似性平均意見得分。

　　在看不見的說話人身上，該模型獲得了較低的背景真實度和合成語音之間的相似度。在VCTK上，3.28的相似度評分在評價量表上介於“中等相似”和“非常相似”之間。非正式地說，很明顯，所提出的模型能夠為看不見的說話者傳遞說話者特征的寬筆畫，清楚地反映正確的性別、音高和共振峰范圍(如圖2所示)。但是看不見的說話者的相似性分數顯著降低，這表明一些細微差別，例如與特征韻律相關的細微差別，丟失了。

　　說話人編碼器只針對北美口音的語音進行訓練。結果，重音不匹配限制了我們在VCTK上說話者相似性的表現，因為評分者指令沒有指定如何判斷重音，所以如果重音不匹配，評分者可能認為一對來自不同的說話者。事實上，對評分者評論的檢查表明，我們的模型有時會產生不同於基本事實的口音，從而導致較低的分數。然而，一些評價者評論說，盡管口音不同，但聲音的語氣和音調變化聽起來非常相似。

　　作為對推廣到域外說話者能力的初步評估，我們使用在VCTK和LibriSpeech上訓練的合成器從另一個數據集合成說話者。我們只改變了合成器和聲碼器網絡的訓練集；兩種型號都使用了相同的說話人編碼器。如表3所示，這些模型能夠生成與表1所示的看不見但在域內的說話者具有相同自然度的語音。然而，LibriSpeech模型合成的VCTK說話人具有明顯高於VCTK模型的說話人相似性，能夠合成LibriSpeech說話人。LibriSpeech模型的更好概括表明，僅在100個說話人上訓練合成器不足以實現高質量的說話人傳輸。

表3：未見過說話人的自然度和說話人相似度的跨數據集評估

3.3 說話人驗證

　　作為未見過說話人的合成和背景真實音頻之間說話人相似度的客觀度量，我們評估了有限說話人驗證系統區分合成語音和真實語音的能力。我們使用與第2.1節相同的網絡拓撲訓練了一個新的僅評估說話人編碼器，但使用了不同的113K說話人的28M發音訓練集。使用不同的評估模型可以確保指標不僅在特定的說話人嵌入空間有效。我們登記了21名真實說話者的聲音：11名來自VCTK，10名來自LibriSpeech，並根據登記的說話者集對合成波形進行評分。在合成器培訓期間，所有注冊和驗證說話人都不可見。說話人驗證等錯誤率是通過將每個測試話語與每個注冊說話人配對來估計的。我們為每個說話者合成了100個測試話語，所以每個評估進行了21，000或23，100次試驗。

　　如表4所示，只要合成器在足夠大的一組說話人上訓練，即在LibriSpeech上，合成的語音通常最類似於地面真實聲音。LibriSpeech合成器使用來自兩個數據集的參考說話人獲得了5-6%的相似EERs，而在VCTK上訓練的合成器性能更差，尤其是在域外LibriSpeech說話人上。這些結果與表3中的主觀評價一致。

表4：未見過的音箱上不同合成器的音箱驗證EERs

　　為了測量同一說話者區分真實和合成語音的難度，我們對一組擴大的注冊說話者進行了額外的評估，其中包括10個真實LibriSpeech說話者的10個合成版本。在這20個語音識別任務中，我們獲得了2.86%的能效比，表明雖然合成語音傾向於接近目標說話人(余弦相似度> 0.6，如表4所示)，但它幾乎總是更接近同一說話人的其他合成話語(相似度> 0.7)。由此我們可以得出結論，所提出的模型可以生成與目標說話者相似的語音，但不足以與真實說話者混淆。

3.4 說話人嵌入空間

　　可視化說話人嵌入空間進一步將第3.2節和第3.3節中描述的量化結果聯系起來。如圖3所示，不同的說話人在說話人嵌入空間中彼此很好地分開。主成分分析可視化(左)顯示，在嵌入空間中，合成話語往往非常接近來自同一說話者的真實語音。然而，合成語音仍然很容易與真實的人的語音區分開來，如SNE可視化(右)所示，其中來自每個合成說話者的語音形成了與來自相應說話者的真實語音的聚類相鄰的不同聚類。在主成分分析和SNE可視化中，說話者似乎按性別完全分開，所有女性說話者出現在左側，所有男性說話者出現在右側。這表明說話人編碼器已經了解了說話人空間的合理表示。

圖3：從LibriSpeech話語中提取的說話者嵌入的可視化。每種顏色對應不同的說話人。當真實和合成的話語來自同一個說話者時，它們出現在附近，然而真實和合成的話語一致地形成不同的群。

3.5 說話人編碼器訓練說話人的數量

　　很可能，所提出的模型在各種各樣的說話者中很好地概括的能力是基於說話者編碼器所學習的表示的質量。因此，我們研究了說話人編碼器訓練集對合成質量的影響。我們使用了三個額外的訓練集：(1)Liblispeech Other，它包含來自1，166個說話者的461個小時的語音，這些說話者與干凈子集中的說話者不相交，(2)V OxCele[11]，和(3)V OxCele 2[6]，它們分別包含來自1，211個說話者的139K個話語和來自5，994個說話者的1.09M個話語。

　　表5比較了作為用於訓練說話人編碼器的說話人數量的函數的提議模型的性能。這衡量了訓練說話人編碼器時說話人多樣性的重要性。為了避免過度擬合，在小數據集(前兩行)上訓練的說話人編碼器使用較小的網絡架構(256維LSTM單元，64維投影)並輸出64維說話人嵌入。

表5：使用在不同數據集上訓練的說話人編碼器的性能。合成器都是在LibriSpeech Clean上訓練的，並在手持說話人上進行評估。LS: LibriSpeech，VC:V oxcelbe。

　　我們首先評估在LibriSpeech Clean和其他設備上訓練的說話人編碼器，每個設備包含相似數量的說話人。在Clean中，說話人編碼器和合成器是在相同的數據上訓練的，該數據與[2]中的非微調說話人編碼器的基線相似，只是它的訓練方式與[10]中的有區別。這種匹配的條件給出了稍微好一點的自然度和相似性分數。隨着訓練說話者數量的增加，自然度和相似度都顯著提高。客觀的能效比結果也隨着主觀評估而提高。

　　這些結果對多說話人TTS訓練有重要意義。說話人編碼器的數據要求比完整的TTS訓練便宜得多，因為不需要抄本，並且音頻質量可以低於TTS訓練。我們已經表明，通過將在大量未編碼數據上訓練的說話人編碼器網絡與在更小的高質量數據集上訓練的說話人編碼器網絡相結合，合成非常自然的說話人轉換系統是可能的。

3.6 虛構的說話人

　　繞過說話人編碼器網絡，並在說話人嵌入空間中的隨機點上調節合成器，會導致來自虛擬說話人的語音，這些語音不存在於合成器或說話人編碼器的訓練或測試集中。這在表6中得到證明，該表將從單位超球面表面上的均勻采樣點生成的10個這樣的說話人與它們在組件網絡的訓練集中的最近鄰居進行了比較。在登記了10個最近鄰居的聲音后，使用與第3.3節相同的設置來計算奇異值分解。盡管這些說話人完全是虛構的，但合成器和聲碼器能夠像看得見或看不見的真實說話人一樣自然地產生音頻。與最近鄰訓練話語的低余弦相似性和非常高的能效比表明它們確實不同於訓練說話者。

表6：虛擬說話者的講話與他們在列車組中最近的鄰居的比較。合成器在LS Clean上訓練。說話人編碼器在LS-Other + VC + VC2上訓練。

4 結論

　　我們提出了一個基於神經網絡的多說話人TTS合成系統。該系統將一個獨立訓練的說話人編碼器網絡與一個序列到序列的TTS合成網絡和基於Tacotron 2的神經聲碼器相結合。通過利用辨別性說話人編碼器所學習的知識，合成器不僅能夠為訓練期間看到的說話人生成高質量的語音，還能夠為以前從未見過的說話人生成高質量的語音。通過基於說話人驗證系統和主觀聽力測試的評估，我們證明了合成語音與來自目標說話人的真實語音相當相似，即使是在這種看不見的說話人身上。

　　我們運行實驗來分析用於訓練不同組件的數據量的影響，並且發現，給定合成器訓練集中足夠的說話者多樣性，可以通過增加說話者編碼器訓練數據量來顯著提高說話者傳遞質量。

　　遷移學習對實現這些結果至關重要。通過分離說話人編碼器和合成器的訓練，該系統顯著降低了對多說話人TTS訓練數據的要求。它既不需要合成器訓練數據的說話者身份標簽，也不需要說話者編碼器訓練數據的高質量干凈語音或抄本。此外，與[10]相比，獨立訓練組件大大簡化了合成器網絡的訓練配置，因為它不需要額外的三重或對比損耗。然而，使用低維向量建模說話人變化限制了利用大量參考語音的能力。在給定幾秒鍾以上的參考語音的情況下，提高說話者相似性需要一種模型自適應方法，如[2]和最近的[5]中所述。

　　最后，我們證明了該模型能夠從不同於訓練集的虛擬說話人生成逼真的語音，這意味着該模型已經學會利用說話人變化空間的逼真表示。

　　盡管使用了WaveNet聲碼器(以及其非常高的推理成本)，與[15]中的單個說話者結果相比，所提出的模型沒有達到人的水平的自然性。這是由於在每個說話者的數據明顯較少的情況下，為各種說話者生成語音的額外困難，以及使用具有較低數據質量的數據集。另外一個限制在於模型不能轉移重音。給定足夠的訓練數據，這可以通過在獨立的說話者和重音嵌入上調節合成器來解決。最后，我們注意到，該模型也不能完全將說話者的聲音從參考音頻的韻律中分離出來，這與[16]中觀察到的趨勢相似。

致謝

　　作者感謝黑加·陳(Heiga Zen)、王玉軒(Y uxuan Wang)、薩米·本吉奧(Samy Bengio)、谷歌人工智能感知團隊(Google AI Perception)以及谷歌TTS和DeepMind Research團隊的有益討論和反饋。

參考文獻

[1] Artificial Intelligence at Google – Our Principles. https://ai.google/principles/, 2018.
[2] Sercan O Arik, Jitong Chen, Kainan Peng, Wei Ping, and Yanqi Zhou. Neural voice cloning with a few samples. arXiv preprint arXiv:1802.06006, 2018.
[3] Dzmitry Bahdanau, Kyunghyun Cho, and Y oshua Bengio. Neural machine translation by jointly learning to align and translate. In Proceedings of ICLR, 2015.
[4] Steven Boll. Suppression of acoustic noise in speech using spectral subtraction. IEEE Transactions on Acoustics, Speech, and Signal Processing, 27(2):113–120, 1979.
[5] Y utian Chen, Y annis Assael, Brendan Shillingford, David Budden, Scott Reed, Heiga Zen, Quan Wang, Luis C Cobo, Andrew Trask, Ben Laurie, et al. Sample efficient adaptive text-to-speech. arXiv preprint arXiv:1809.10460, 2018.
[6] Joon Son Chung, Arsha Nagrani, and Andrew Zisserman. V oxCeleb2: Deep speaker recognition. In Interspeech, pages 1086–1090, 2018.
[7] Rama Doddipatla, Norbert Braunschweiler, and Ranniery Maia. Speaker adaptation in dnnbased speech synthesis using d-vectors. In Proc. Interspeech, pages 3404–3408, 2017.
[8] Andrew Gibiansky, Sercan Arik, Gregory Diamos, John Miller, Kainan Peng, Wei Ping, Jonathan Raiman, and Y anqi Zhou. Deep V oice 2: Multi-speaker neural text-to-speech. In I. Guyon, U. V . Luxburg, S. Bengio, H. Wallach, R. Fergus, S. Vishwanathan, and R. Garnett, editors, Advances in Neural Information Processing Systems 30, pages 2962–2970. Curran Associates, Inc., 2017.
[9] Georg Heigold, Ignacio Moreno, Samy Bengio, and Noam Shazeer. End-to-end text-dependent speaker verification. In Acoustics, Speech and Signal Processing (ICASSP), 2016 IEEE International Conference on, pages 5115–5119. IEEE, 2016. [10] Eliya Nachmani, Adam Polyak, Y aniv Taigman, and Lior Wolf. Fitting new speakers based on a short untranscribed sample. arXiv preprint arXiv:1802.06984, 2018.
[11] Arsha Nagrani, Joon Son Chung, and Andrew Zisserman. V oxCeleb: A large-scale speaker identification dataset. arXiv preprint arXiv:1706.08612, 2017.
[12] V assil Panayotov, Guoguo Chen, Daniel Povey, and Sanjeev Khudanpur. LibriSpeech: an ASR corpus based on public domain audio books. In Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on, pages 5206–5210. IEEE, 2015.
[13] Wei Ping, Kainan Peng, Andrew Gibiansky, Sercan O. Arik, Ajay Kannan, Sharan Narang, Jonathan Raiman, and John Miller. Deep V oice 3: 2000-speaker neural text-to-speech. In Proc. International Conference on Learning Representations (ICLR), 2018.
[14] ITUT Rec. P . 800: Methods for subjective determination of transmission quality. International Telecommunication Union, Geneva, 1996.
[15] Jonathan Shen, Ruoming Pang, Ron J. Weiss, Mike Schuster, Navdeep Jaitly, Zongheng Yang, Zhifeng Chen, Y u Zhang, Y uxuan Wang, RJ Skerry-Ryan, Rif A. Saurous, Yannis Agiomyrgiannakis, and Y onghui. Wu. Natural TTS synthesis by conditioning WaveNet on mel spectrogram predictions. In Proc. IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2018.
[16] RJ Skerry-Ryan, Eric Battenberg, Ying Xiao, Y uxuan Wang, Daisy Stanton, Joel Shor, Ron J. Weiss, Rob Clark, and Rif A. Saurous. Towards end-to-end prosody transfer for expressive speech synthesis with Tacotron. arXiv preprint arXiv:1803.09047, 2018. 10
[17] Jose Sotelo, Soroush Mehri, Kundan Kumar, João Felipe Santos, Kyle Kastner, Aaron Courville, and Y oshua Bengio. Char2Wav: End-to-end speech synthesis. In Proc. International Conference on Learning Representations (ICLR), 2017.
[18] Yaniv Taigman, Lior Wolf, Adam Polyak, and Eliya Nachmani. V oiceLoop: V oice fitting and synthesis via a phonological loop. In Proc. International Conference on Learning Representations (ICLR), 2018.
[19] Aäron van den Oord, Sander Dieleman, Heiga Zen, Karen Simonyan, Oriol Vinyals, Alex Graves, Nal Kalchbrenner, Andrew Senior, and Koray Kavukcuoglu. WaveNet: A generative model for raw audio. CoRR abs/1609.03499, 2016.
[20] Ehsan V ariani, Xin Lei, Erik McDermott, Ignacio Lopez Moreno, and Javier GonzalezDominguez. Deep neural networks for small footprint text-dependent speaker verification. In Acoustics, Speech and Signal Processing (ICASSP), 2014 IEEE International Conference on, pages 4052–4056. IEEE, 2014.
[21] Christophe V eaux, Junichi Y amagishi, Kirsten MacDonald, et al. CSTR VCTK Corpus: English multi-speaker corpus for CSTR voice cloning toolkit, 2017.
[22] Li Wan, Quan Wang, Alan Papir, and Ignacio Lopez Moreno. Generalized end-to-end loss for speaker verification. In Proc. IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2018.
[23] Y uxuan Wang, RJ Skerry-Ryan, Daisy Stanton, Y onghui Wu, Ron J. Weiss, Navdeep Jaitly, Zongheng Y ang, Ying Xiao, Zhifeng Chen, Samy Bengio, Quoc Le, Y annis Agiomyrgiannakis, Rob Clark, and Rif A. Saurous. Tacotron: Towards end-to-end speech synthesis. In Proc. Interspeech, pages 4006–4010, August 2017.
[24] Y uxuan Wang, Daisy Stanton, Y u Zhang, RJ Skerry-Ryan, Eric Battenberg, Joel Shor, Ying Xiao, Fei Ren, Ye Jia, and Rif A Saurous. Style tokens: Unsupervised style modeling, control and transfer in end-to-end speech synthesis. arXiv preprint arXiv:1803.09017, 2018.

附錄一附加聯合培訓基線

表7：語音自然度和說話者相似性平均意見得分(MOS)，基線模型的95%置信區間，其中說話者編碼器和合成器網絡被聯合訓練(前兩行)。用於比較的包括來自表5(中間行)的單獨訓練的基線，以及來自表1和2(底部兩行)的嵌入查找表基線和建議模型。除了最后一排，所有人都是完全在圖書館接受培訓的。最下面一行使用在單獨的說話人語料庫上訓練的說話人編碼器。所有評估都在圖書館網頁上。

　　盡管如3.5節所述，如果說話人編碼器是在更大的未編碼語音語料庫上訓練的，那么說話人編碼器和合成器網絡的單獨訓練是必要的，但在本節中，我們評估說話人編碼器和合成器網絡的聯合訓練作為基線的有效性，類似於[10]。

　　我們在LibriSpeech的干凈子集上訓練，包含1.2K說話人，並在第3.5節之后使用64的說話人嵌入維度。我們比較了兩個基線聯合訓練系統:一個對說話人編碼器的輸出沒有任何約束，類似於[16]，另一個具有額外的說話人識別損失，通過線性投影傳遞64維說話人嵌入來形成softmax說話人分類器的邏輯，優化相應的交叉熵損失。

　　自然度和說話者相似性的金屬氧化物半導體結果如表7所示，將這些聯合訓練的基線與前面章節中報告的結果進行比較。我們發現，兩個聯合訓練的模型在可見的說話者身上獲得了相似的自然性，而包含有區別性說話者損失的變體在不可見的說話者身上表現更好。就未見過的說話人的自然度和相似度而言，包含說話人損失的模型與表5中的基線具有幾乎相同的性能，表5使用了單獨訓練的說話人編碼器，該編碼器也經過優化以區分說話人。最后，我們注意到，所提出的模型使用在18K說話者語料庫上單獨訓練的說話者編碼器，顯著優於所有基線，再次強調了遷移學習對於該任務的有效性。

附錄二說話人變體

　　LibriSpeech的語調和風格在不同的話語之間有很大的差異，即使是來自同一個說話者。在一些例子中，說話者甚至試圖模仿不同性別的聲音。結果，比較來自同一說話者的不同話語之間的說話者相似性(即自相似性)有時可能相對較低，並且因說話者而異。由於LibriSpeech錄音中的噪音水平，一些說話人的自然度得分明顯較低。這也因人而異。這可以在表8中看到。相比之下，VCTK在自然性和自相似性兩個方面都更加一致。

　　表4顯示了不同說話人在合成音頻上的MOS的差異。它比較了Ground truth 和合成的不同說話人的模型，揭示了我們提出的模型在VCTK上的性能也非常依賴於說話人。比如說話人“p240”獲得了4.48的MOS，與地面真值(4.57)的MOS非常接近，但說話人“p260”卻比其地面真值落后整整0.5分。

表8：Ground truth MOS評價對看不見的說話者的分類。相似性評估比較同一說話者的兩種話語。

圖4:在看不見的VCTK說話人上的地面真實和合成語音的每說話人自然度MOS

附錄C：參考語音時長的影響

表9:參考語音話語持續時間的影響。在VCTK上評價

　　所提出的模型依賴於饋送到說話者編碼器的參考語音信號。如表9所示，增加參考語音的長度顯著提高了相似性，因為我們可以用它來計算更精確的說話人嵌入。質量在VCTK上大約5秒鍾達到飽和。較短的參考話語給出了稍好的自然度，因為它們更好地匹配用於訓練合成器的參考話語的持續時間，合成器的中值持續時間為1.8秒。所提出的模型僅使用2秒的參考音頻就實現了接近最佳的性能。僅使用5秒鍾語音的性能飽和突出了所提出的模型的局限性，其受到說話人嵌入的小容量的限制。在[2]中也發現了類似的縮放，其中在有限的自適應數據下，僅自適應說話人嵌入被證明是有效的，但是如果有更多的數據可用，則需要對整個模型進行微調以提高性能。這種模式在最近的工作中也得到了證實[5]。