課程名稱:深度學習與人類語言處理(Deep Learning for Human Language Processing)
(自然語言包括文本和語音兩種形式,不過自然語言處理大多時候指的是文本處理,所以這門課的名字叫人類語言處理以便區分,因為這門課語音和文本的內容是1:1的)
人類語言處理的終極目標:讓機器能夠聽懂人說的話,看懂人寫的句子,並有能力說出人聽得懂的話,寫出人看得懂的句子。
世界上只有56%的語言有文字形式,而且有些語言的文字系統未必被人們廣泛使用(不如語音直接)。所以語音也是非常重要的,而且語音這部分不僅僅只有語音識別任務。
人類語言處理的困難之處:
1秒的語音有16K個采樣點,每個點包含256個可能的取值。
而且沒有人能夠說同一段話兩次,而語音的波形相同的。
而且一句話其實是可以無限長的。
人類語言處理包含的任務:
雖然人類語言處理的任務比較難,不過在深度學習中方法卻比較簡單,如下圖所示(圖中的Model就是Deep Network),各種問題硬train一發就能搞定。
自動語音識別ASR:
傳統的語音識別,包含前端信號處理、聲學模型、語言模型還有詞典等,要把這些部分都學通,較為復雜,而且模型通常需要2G大小,比較大。
而目前的End-to-End的模型,只需要80MB,可以運行在手機上。
語音合成TSS:
在課程視頻里演示的語音合成案例里,下圖的不同長短的“發財”它的語調居然都是不同的,而這些都是模型自己學出來的(很神奇)。
不過這種黑盒算法也會有一些問題,雖然對於長句效果很好,不過對於短詞效果較差(數據問題,訓練數據中短句或者單詞較少),比如谷歌歷史上的翻譯破音問題。
語音轉換:人聲分割SS和音色遷移VC:
人聲分割:就是把一段語音中混合的不同聲音分離出來(End-to-End的模型直接就能做,傅里葉變換都不需要)。
音色遷移:就是把一個人說過的話做音色遷移,輸出的結果聽起來像是由另外一個人說出來的。甚至還可以輸出完全不同的內容。
語音分類:人聲辨識SR和關鍵詞識別KS:
人聲辨識:判斷語音是誰說的,
關鍵詞辨識:判斷語音中是否出現了關鍵詞。比如喚醒詞,Hi, Siri.
文本生成:
生成方式:自回歸(逐個生成)和非自回歸。
應用包括翻譯、摘要、聊天機器人、自動問答等。
此外,本門課程還會講Meta Learning,知識圖譜,對抗攻擊,可解釋AI等內容。