語音識別模型: 語音識別模型主要分為兩種,一種是基於seq2seq的,一種是基於HMM的。 seq2seq的模型主要有LAS,CTC,RNN-T,Neural Transducer,MoChA。 ...
課程名稱:深度學習與人類語言處理 Deep Learning for Human Language Processing 自然語言包括文本和語音兩種形式,不過自然語言處理大多時候指的是文本處理,所以這門課的名字叫人類語言處理以便區分,因為這門課語音和文本的內容是 : 的 人類語言處理的終極目標:讓機器能夠聽懂人說的話,看懂人寫的句子,並有能力說出人聽得懂的話,寫出人看得懂的句子。 世界上只有 的語 ...
2020-07-06 11:10 0 756 推薦指數:
語音識別模型: 語音識別模型主要分為兩種,一種是基於seq2seq的,一種是基於HMM的。 seq2seq的模型主要有LAS,CTC,RNN-T,Neural Transducer,MoChA。 ...
Connectionist Temporal Classification (CTC) CTC可以用於線上實時地語音識別,編碼器用的是單向的RNN,解碼是用MLP來預測文字分布。 編碼器將語音輸入\ ...
一、Course Introduction 1、機器學習就是自動找函式 Regression: output is a scalar. Classification:yes or no Binary classification:RNN作業 Multi-class ...
本文作為自己學習李宏毅老師2021春機器學習課程所做筆記,記錄自己身為入門階段小白的學習理解,如果錯漏、建議,還請各位博友不吝指教,感謝!! 一、Machine Learning概念理解 Machine Learning主要的任務是尋找一個合適的Function來完成我們的工作(非常不嚴 ...
比較有用的是conditioned generator,能夠控制輸入的vector來控制對應的文字音像 ...
model里面大量用到了self-attention這種特別的層。 一般講到處理sequenc ...
問題:越深越好? 層數越多,參數越多,model比較復雜,數據又多的話,本來誤差就越小,這為什么歸因於”深“呢? 矮胖結構 v.s. 高瘦結構 真正要比較”深“和”淺“的model的時候 ...
一、方法總結 Network Pruning Knowledge Distillation Parameter Quantization Architecture Design ...