相關內容簡體繁體

《數學之美》讀書筆記

本文轉載自查看原文 2019-08-16 00:08 444 機器學習/ 數學

雅格布森通信模型：

通信六要素

發送者（信息源）
信道
接收者
信息
上下文
編碼

HMM：隱馬爾可夫模型

s是可見的 - 信源

o是不可見的（輸出） - 信宿

通信就是要根據觀測到的o恢復出s

對於翻譯問題，漢譯英：英語是s，漢語是o，根據s推斷o

TF-IDF

TF：詞頻

IDF：逆文本頻率指數

IDF就是關鍵詞的權重，越能表示一個文檔主題的詞，其權重越高

最大熵原則

以條件隨機場為例，希望找到一個符合所有邊緣分布的概率分布函數。

根據最大熵原則：希望找到一個符合所有邊緣分布並使熵達到最大的模型，數學上可以證明，這個模型就是指數函數。

詳見：https://www.cnblogs.com/sddai/p/11346872.html

最大熵模型、邏輯回歸模型都是指數模型，訓練方法類似：EM算法（通用迭代算法GIS、改進的迭代算法IIS）

最大熵模型的數學推導（參考[2]）

對於給定的訓練數據集T={（x1，y1）,（x2，y2）,(x3，y3)...(xn，yn)}以及特征函數fi(x,y),i=1,2,3...n，最大熵模型的學習等價於約束的最優化問題：

引入朗格朗日算子W，定義拉格朗日函數L(P,w)

最優化的原始問題：

對偶問題是：

由於L(P,W)是P的凸函數，原始問題的解與對偶問題的解是等價的。這里通過求對偶問題的解來求原始問題的解。

第一步求解內部極小化問題，記為：

通過微分求導，得出P的解是：

第二步求外部的極大化問題：

最后的解記為：

第三步可以證明對偶函數的極大化等價於第一步求解出的P的極大似然估計，所以將最大熵模型寫成更一般的形式.

From <https://www.cnblogs.com/sddai/p/11346872.html>

對EM算法的理解

類比K-Means算法：

條件隨機場

HMM和CRF的區別

上述模型參數眾多，因此只能找出其中一些邊緣分布，例如P(x_1), P(x_2, y_3)等，再根據最大熵原則找到一個滿足所有邊緣分布並且使熵最大的模型。

這個模型就是指數函數

計算復雜度

P問題：

非多項式問題：

在非多項式問題中，有一類稱之為非確定的多項式問題（NP問題）

P不等於NP

如果一個問題，能在多項式復雜度的時間內證實一個答案正確與否，則稱為NP問題（無論當前是否有多項式復雜度算法）

NPC：NP-complete問題，所有NP問題都可以在多項式時間內規約到NPC問題，如果NPC問題找到了多項式算法，則NP=P

計算復雜度至少是NPC甚至是更大的問題，稱之為NP-Hard問題

籬笆網絡（lattice）和維特比算法

SVD的物理含義

矩陣A：用來表示文章和詞的關聯性，A的一行對應一篇文章，A的一列對應一個詞

A中元素為去加權詞頻（例如TF-IDF）

2019年8月15日夜

於南湖畔

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 【讀書筆記】---- 數學之美數學之美讀書筆記與感悟(一) 《數學之美》-吳軍讀書筆記《數學之美》讀書筆記和知識點總結（一）《數學之美》讀書筆記和知識點總結（二）算法之美--讀書筆記具體數學(Concrete Math) 讀書筆記【記】《.net之美》之讀書筆記(一) C#語言基礎【記】《.net之美》之讀書筆記(二) C#中的泛型第八周讀書筆記 ——編程之美

粵ICP備18138465號 © 2018-2025 CODEPRJ.COM