Connectionist Temporal Classification (CTC) CTC可以用於線上實時地語音識別,編碼器用的是單向的RNN,解碼是用MLP來預測文字分布。 編碼器將語音輸入\(x^i\)編碼成\(h^i\),MLP再對它乘上一個權重,接上Softmax,得到詞表V大小 ...
語音識別模型: 語音識別模型主要分為兩種,一種是基於seq seq的,一種是基於HMM的。 seq seq的模型主要有LAS,CTC,RNN T,Neural Transducer,MoChA。 本節講最流行的LAS,就是Listen,Atten,and Spell,典型的seq seq attention的自編碼模型。 . Listen: 編碼器會把輸入的一串聲學特征,轉換為高維隱層嵌入。它的主 ...
2020-07-06 20:14 0 694 推薦指數:
Connectionist Temporal Classification (CTC) CTC可以用於線上實時地語音識別,編碼器用的是單向的RNN,解碼是用MLP來預測文字分布。 編碼器將語音輸入\(x^i\)編碼成\(h^i\),MLP再對它乘上一個權重,接上Softmax,得到詞表V大小 ...
課程名稱:深度學習與人類語言處理(Deep Learning for Human Language Processing) (自然語言包括文本和語音兩種形式,不過自然語言處理大多時候指的是文本處理,所以這門課的名字叫人類語言處理以便區分,因為這門課語音和文本的內容是1:1的) 人類語言處理 ...
LAS: listen, attented and spell,Google 思想: sequence to sequence的思想,模型分為encoder和decoder兩部分,首先將任意長的輸入序列通過encoder轉化為定長的特征表達,然后輸入 ...
mate learning = learn to learn 如下圖所示,mate learning就是 輸入訓練資料到 F,輸出的是一個可以用來識別圖像的 f*。 F(training data) = f (一個神經網絡) 而與其他的機器學習模型不同的是,機器學習是訓練出來一個模型F ...
Transformer英文的意思就是變形金剛,Transformer現在有一個非常知名的應用,這個應用叫做BERT,BERT就是非監督的Transformer,Transformer是一個seq2se ...
問題:越深越好? 層數越多,參數越多,model比較復雜,數據又多的話,本來誤差就越小,這為什么歸因於”深“呢? 矮胖結構 v.s. 高瘦結構 真正要比較”深“和”淺“的model的時候 ...
一、方法總結 Network Pruning Knowledge Distillation Parameter Quantization Architecture Design ...
Regression 1、首先,什么是regression(回歸) 2、然后,實現回歸的步驟(機器學習的步驟) step1、model(確定一個模型)——線性模型 step2、good ...