1.分類算法
所謂分類,簡單來說,就是根據文本的特征或屬性,划分到已有的類別中。常用的分類算法包括:決策樹分類法,朴素的貝葉斯分類算法(native Bayesian classifier)、基於支持向量機(SVM)的分類器,神經網絡法,k-最近鄰法(k-nearest neighbor,kNN),模糊分類法等等
-
機器學習中決策樹是一個預測模型,它表示對象屬性和對象值之間的一種映射,樹中的每一個節點表示對象屬性的判斷條件,其分支表示符合節點條件的對象。樹的葉子節點表示對象所屬的預測結果。
-
朴素的貝葉斯分類算法(native Bayesian classifier)
舉例說明,我們想計算含有單詞drugs的郵件為垃圾郵件的概率。 在這里,A為“這是封垃圾郵件”。我們先來計算P(A),它也被稱為先驗概率,計算方法是,統計訓練中的垃圾郵件的比例,如果我們的數據集每100封郵件有30封垃圾郵件,P(A)為30/100=0.3。 B表示“該封郵件含有單詞drugs”。類似地,我們可以通過計算數據集中含有單詞drugs的郵件數P(B)。如果每100封郵件有10封包含有drugs,那么P(B)就為10/100=0.1。 P(B|A)指的是垃圾郵件中含有的單詞drugs的概率,計算起來也很容易,如果30封郵件中有6封含有drugs,那么P(B|A)的概率為6/30=0.2。 現在,就可以根據貝葉斯定理計算出P(A|B),得到含有drugs的郵件為垃圾郵件的概率。把上面的每一項帶入前面的貝葉斯公式,得到結果為0.6。這表明如果郵件中含有drugs這個詞,那么該郵件為垃圾郵件的概率為60%。其實,通過上面的例子我們可以知道它能計算個體從屬於給定類別的概率。因此,他能用來分類。 我們用C表示某種類別,用D代表數據集中的一篇文檔,來計算貝葉斯公式所要用到的各種統計量,對於不好計算的,做出朴素假設,簡化計算。 P(C)為某一類別的概率,可以從訓練集中計算得到。 P(D)為某一文檔的概率,它牽扯到很多特征,計算很難,但是,可以這樣理解,當在計算文檔屬於哪一類別時,對於所有類別來說,每一篇文檔都是獨立重復事件,P(D)相同,因此根本不用計算它。稍后看怎樣處理它。 P(D|C)為文檔D屬於C類的概率,由於D包含很多特征,計算起來很難,這時朴素貝葉斯就派上用場了,我們朴素地假定各個特征是互相獨立的,分別計算每個特征(D1、D2、D3等)在給定類別的概率,再求他們的積。
-
k-最近鄰法(k-nearest neighbor,kNN)
我之前的博客已經有詳細介紹https://www.cnblogs.com/shierlou-123/p/11428651.html
2.聚類算法
-
k-means聚類算法我之前已有詳細介紹:https://www.cnblogs.com/shierlou-123/p/11428651.html
3.回歸模型
本小節將介紹五種常見的回歸模型的概念及其優缺點,包括線性回歸(Linear Regression), 多項式回歸(Ploynomial Regression), 嶺回歸(Ridge Regression),Lasso回歸和彈性回歸網絡(ElasticNet Regression).
-
線性回歸(Linear Regression)
線性回歸的幾個特點:
-
建模速度快,不需要很復雜的計算,在數據量大的情況下依然運行速度很快。
-
可以根據系數給出每個變量的理解和解釋
-
對異常值很敏感
-
-
多項式回歸(Ploynomial Regression)
多項式回歸的特點:
-
能夠擬合非線性可分的數據,更加靈活的處理復雜的關系
-
因為需要設置變量的指數,所以它是完全控制要素變量的建模
-
需要一些數據的先驗知識才能選擇最佳指數
-
如果指數選擇不當容易出現過擬合
-
-
嶺回歸(Ridge Regression)
分析嶺回歸之前首先要說的一個共線性(collinearity)的概念,共線性是自變量之間存在近似線性的關系,這種情況下就會對回歸分析帶來很大的影響。因為所分析的X1總是混雜了X2的作用,這樣就造成了分析誤差,所以回歸分析時需要排除高共線性的影響。
標准線性回歸的優化函數如下:
其中X表示特征變量,w表示權重,y表示真實情況。嶺回歸是針對模型中存在的共線性關系的為變量增加一個小的平方偏差因子(也就是正則項),可以表示成下面的式子:
這樣的平方偏差因子向模型中引入了少量偏差,但大大減少了方差。 領回歸的特點:
-
領回歸的假設和最小平方回歸相同,但是在最小平方回歸的時候我們假設數據服從高斯分布使用的是極大似然估計(MLE),在領回歸的時候由於添加了偏差因子,即w的先驗信息,使用的是極大后驗估計(MAP)來得到最終的參數
-
沒有特征選擇功能
-
-
Lasso回歸
Lesso與嶺回歸非常相似,都是在回歸優化函數中增加了一個偏置項以減少共線性的影響,從而減少模型方程。不同的是Lasso回歸中使用了絕對值偏差作為正則化項,Lasso回歸可以表示成下面的式子:
嶺回歸和Lasso回歸之間的差異可以歸結為L1正則和L2正則之間的差異: 內置的特征選擇(Built-in feature selection):這是L1范數很有用的一個屬性,而L2范數不具有這種特性。因為L1范數傾向於產生系數。例如,模型中有100個系數,但其中只有10個系數是非零系數,也就是說只有這10個變量是有用的,其他90個都是沒有用的。而L2范數產生非稀疏系數,所以沒有這種屬性。因此可以說Lasso回歸做了一種參數選擇形式,未被選中的特征變量對整體的權重為0。 稀疏性:指矩陣或向量中只有極少個非零系數。L1范數具有產生具有零值或具有很少大系數的非常小值的許多系數的屬性。 計算效率:L1范數沒有解析解,但L2范數有。這使得L2范數的解可以通過計算得到。L1范數的解具有稀疏性,這使得它可以與稀疏算法一起使用,這使得在計算上更有效率。
-
彈性回歸網絡(ElasticNet Regression)
彈性回歸網絡是Lesso回歸和嶺回歸技術的混合體。它使用了L1和L2正則化,也達到了兩種技術共有的效果,彈性回歸網絡的表達式如下:
在Lasso和嶺回歸之間進行權衡的一個實際是運行彈性網絡在循環的情況下繼承嶺回歸的一些穩定性。 彈性回歸網絡的優點:
-
鼓勵在高度相關變量的情況下的群體效應,而不像Lasso那樣將其中一些置為0.當多個特征和另一個特征相關的時候彈性網絡非常有用。Lasso傾向於隨機選擇其中一個,而彈性網絡傾向於選擇兩個。
-
對所選變量的數量沒有限制。
-
4.神經網絡
-
激活函數
如下圖,在神經元中,輸入的 inputs 通過加權,求和后,還被作用了一個函數,這個函數就是激活函數 Activation Function。
如果不用激勵函數,每一層輸出都是上層輸入的線性函數,無論神經網絡有多少層,輸出都是輸入的線性組合。如果使用的話,激活函數給神經元引入了非線性因素,使得神經網絡可以任意逼近任何非線性函數,這樣神經網絡就可以應用到眾多的非線性模型中。
參考鏈接:https://blog.csdn.net/llh_1178/article/details/79848922