原文:李宏毅深度學習筆記07---Transformer

.Transformer的入門簡介 transformer是一種帶有self attention的seq seq 的模型 處理seq seq的問題最常用的架構是RNN 下圖,左邊的結構是RNN,右邊的結構是self attention layer,bi可以基於整個輸入序列而得到的。b ,b ,b ,b 是並行計算的。 self attention layer 可以取代RNN .Self atte ...

2020-06-15 09:39 0 708 推薦指數:

查看詳情

深度學習筆記-Transformer

Transformer英文的意思就是變形金剛,Transformer現在有一個非常知名的應用,這個應用叫做BERT,BERT就是非監督的TransformerTransformer是一個seq2seq model with “self-attention"。Transformer在seq2seq ...

Wed Nov 25 00:18:00 CST 2020 0 1162
深度學習筆記-為什么要深度

問題:越深越好? 層數越多,參數越多,model比較復雜,數據又多的話,本來誤差就越小,這為什么歸因於”深“呢? 矮胖結構 v.s. 高瘦結構 真正要比較”深“和”淺“的model的時候 ...

Thu Jun 04 04:58:00 CST 2020 0 662
筆記】機器學習 - -- Transformer

1.RNN和CNN的局限性 RNN是seq2seq的模型,RNN不易平行化,如果是單向的話,要輸出\(b^3\),需要先看完\(a^1, a^2, a^3\)。如果是雙向的話,可以看完整個句子。 ...

Wed Apr 08 02:58:00 CST 2020 0 1386
深度學習筆記-深度學習簡介

深度學習筆記 https://datawhalechina.github.io/leeml-notes 深度學習視頻 https://www.bilibili.com/video/BV1JE411g7XF step1 神經網絡 激活函數是sigmoid,紅色圈是一組神經元,每個 ...

Mon Jun 01 05:24:00 CST 2020 0 1388
《機器學習 深度學習》簡要筆記(一)

P1 一、線性回歸中的模型選擇 上圖所示:   五個模型,一個比一個復雜,其中所包含的function就越多,這樣就有更大幾率找到一個合適的參數集來更好的擬合訓練集。所以,隨着模型的復雜度提 ...

Mon Jul 22 01:14:00 CST 2019 0 436
深度學習筆記-半監督學習

半監督學習 什么是半監督學習? 大家知道在監督學習里,有一大堆的訓練數據(由input和output對組成)。例如上圖所示\(x^r\)是一張圖片,\(y^r\)是類別的label。 半監督學習是說,在label數據上面,有另外一組unlabeled的數據,寫成\(x^u ...

Mon Jun 15 01:13:00 CST 2020 3 2154
深度學習筆記-SVM支持向量機

什么是支持向量機? 支持向量機有兩個特色: 第一個是使用了Hinge Loss(折頁損失函數、鉸鏈損失函數) 另一個是最厲害的地方,有個kernel trick(核技巧) Hinge Loss+kernel trick就是支持向量機 機器學習三個步驟 思考二分類任務 ...

Sat Jun 13 04:59:00 CST 2020 0 957
深度學習筆記-反向傳播

深度學習筆記 https://datawhalechina.github.io/leeml-notes 深度學習視頻 https://www.bilibili.com/video/BV1JE411g7XF 背景 梯度下降 假設有很多參數\(\theta\) 選擇一組初始值 ...

Mon Jun 01 22:45:00 CST 2020 0 544
 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM