雅格布森通信模型:
通信六要素
- 發送者(信息源)
- 信道
- 接收者
- 信息
- 上下文
- 編碼
HMM:隱馬爾可夫模型
s是可見的 - 信源
o是不可見的(輸出) - 信宿
通信就是要根據觀測到的o恢復出s
對於翻譯問題,漢譯英:英語是s,漢語是o,根據s推斷o
TF-IDF
TF:詞頻
IDF:逆文本頻率指數
IDF就是關鍵詞的權重,越能表示一個文檔主題的詞,其權重越高
最大熵原則
以條件隨機場為例,希望找到一個符合所有邊緣分布的概率分布函數。
根據最大熵原則:希望找到一個符合所有邊緣分布並使熵達到最大的模型,數學上可以證明,這個模型就是指數函數。
詳見:https://www.cnblogs.com/sddai/p/11346872.html
最大熵模型、邏輯回歸模型都是指數模型,訓練方法類似:EM算法(通用迭代算法GIS、改進的迭代算法IIS)
最大熵模型的數學推導(參考[2])
對於給定的訓練數據集T={(x1,y1),(x2,y2),(x3,y3)...(xn,yn)}以及特征函數fi(x,y),i=1,2,3...n,最大熵模型的學習等價於約束的最優化問題:
引入朗格朗日算子W,定義拉格朗日函數L(P,w)
最優化的原始問題:
對偶問題是:
由於L(P,W)是P的凸函數,原始問題的解與對偶問題的解是等價的。這里通過求對偶問題的解來求原始問題的解。
第一步求解內部極小化問題,記為:
通過微分求導,得出P的解是:
第二步求外部的極大化問題:
最后的解記為:
第三步可以證明對偶函數的極大化等價於第一步求解出的P的極大似然估計,所以將最大熵模型寫成更一般的形式.
From <https://www.cnblogs.com/sddai/p/11346872.html>
對EM算法的理解
類比K-Means算法:
條件隨機場
HMM和CRF的區別
上述模型參數眾多,因此只能找出其中一些邊緣分布,例如P(x_1), P(x_2, y_3)等,再根據最大熵原則找到一個滿足所有邊緣分布並且使熵最大的模型。
這個模型就是指數函數
計算復雜度
P問題:
非多項式問題:
在非多項式問題中,有一類稱之為非確定的多項式問題(NP問題)
P不等於NP
如果一個問題,能在多項式復雜度的時間內證實一個答案正確與否,則稱為NP問題(無論當前是否有多項式復雜度算法)
NPC:NP-complete問題,所有NP問題都可以在多項式時間內規約到NPC問題,如果NPC問題找到了多項式算法,則NP=P
計算復雜度至少是NPC甚至是更大的問題,稱之為NP-Hard問題
籬笆網絡(lattice)和維特比算法
SVD的物理含義
矩陣A:用來表示文章和詞的關聯性,A的一行對應一篇文章,A的一列對應一個詞
A中元素為去加權詞頻(例如TF-IDF)
2019年8月15日 夜
於南湖畔