logistic學習筆記


1、 logistic回歸與一般線性回歸模型的區別:

(1)     線性回歸的結果變量 與因變量或者反應變量與自變量之間的關系假設是線性的,而logistic回歸中 兩者之間的關系是非線性的;

(2)     前提假設不同,在線性回歸中,通常假設,對於自變量x的某個值,因變量Y的觀測值服從正態分布,但在logistic回歸中,因變量Y 服從二項分布或者多項分布;

(3)     logistic中不存在線性回歸中的殘差項。

2、logistic回歸的應用條件:

      首要的條件應該是需要看一下自變量與因變量之間是什么樣的一種關系。

      多重線性回歸中,要求自變量與因變量符合線性關系。

      而logistic回歸則不同,它 要求的是自變量與logit(y)符合線性關系,所謂logit實際上就是ln(P/1-P)。也就是說,自變量應與ln(P/1-P)呈線性關系(而自變量與因變量成S曲線關系:自然界中有很多事物的發展符合S曲線的規律,尤其是在生物、遺傳方面,因此logistic回歸經常用在生物信息學的數據挖掘中)。當然,這種情形主要針對多分類變量和連續變量。對於二分類變量就無所謂了,因為兩點之間永遠可以連成一條線;

     最后強調一下,如果你對自變量x與y的關系不清楚,在樣本含量允許的條件下,最好轉換為虛擬變量的形式,這樣不至於出現太大的誤差。

     如果你不清楚應該如何探索他們的關系,也可以采用虛擬變量的形式,比如x=1,2,3,4,如果轉換的虛擬變量x2,x3,x4他們的OR值呈直線關系,那x基本上可 以直接以1,2,3,4的形式直接與y進行分析。而如果,x2,x3,x4的危險度分別為3.1,2.9,3.4。並不呈直線關系,所以還是考慮以虛擬變量形式進行分析最好。

3、logistic回歸的用途:

     logistic回歸主要在流行病學中應用較多,比較常用的情形是探索某疾病的危險因素,根據危險因素預測某疾病發生的概率,等等。

     logistic回歸的主要用途:一是尋找危險因素,正如上面所說的尋找某一疾病的危險因素等。二是預測,如果已經建立了logistic回歸模型,則可 以根據模型,預測在不同的自變量情況下,發生某病或某種情況的概率有多大。三是判別,實際上跟預測有些類似,也是根據logistic模型,判斷某人屬於 某病或屬於某種情況的概率有多大,也就是看一下這個人有多大的可能性是屬於某病。

3、 模型選擇:

      模型選擇在實際應用過程中非常有用,一般把與模型有關的數據分為3部分,訓練數據,驗證數據和測試數據,如下圖所示:

 

Training set

Validation set

Test set

 

      其中訓練數據和驗證數據都是已有的樣本數據,即已觀察到了的數據。測試數據是未來實際應用中產生的數據,是事先不知道的。

      模型選擇問題就是說怎樣驗證一個模型是否好。模型的好壞最終是要看它在測試數據集上的表現。因此在未觀測到測試數據時,我們只能用驗證數據集來代替它進行測試。機器學習的初學者最容易犯的一個錯誤是:在測試集上進行參數調整。一定要記住,凡是有關參數調整的,只能在驗證集上進行,測試集不能參與任何形式的訓練、驗證,只能用於最終模型效果的測試。

      在訓練樣本有限的情況下,為了提高數據的利用效率,一般采用的方法為交叉驗證,比如說LOOCV,即留一法交叉驗證,類似的還有k折交叉驗證。交叉驗證的主要目的是防止訓練出來的模型過擬合。但是在當今由於數據都是海量的,交叉驗證方法使用越來越少了,因為如果訓練數據集非常大的話,一般不會產生過擬合現象。不過在生物醫學信息的數據挖掘中,尤其是基因數據,樣本的獲得成本較高,特征的數目非常大,樣本數相對特征數來說較小,還是會使用交叉驗證、bootstrapping等方法來盡量提高樣本數據的利用率,爭取在樣本數量較小的情況下,得到更好的分類、預測效果。

  還有一些方法是不需要通過驗證而直接來評價模型好壞的,比如是AIC,BIC,MDL,SRM等。

4、 統計結果關注的參數:

      在商業實踐中,對以上統計量最為關注的是C統計量,其次是似然卡方統計量,然后才是HL統計量,對AIC 和RSQUARE 極少關注,這一點和多元線性回歸有很大的不同,根本原因是多元線性回歸是一個預測模型,目標變量的值具有實際的數值意義;而logistic是一個分類模型,目標變量的值是一個分類標識,因此更關注觀測值和預測值之間的相對一致性,而不是絕對一致性。

5、 logistic回歸與SVM的區別與聯系:

      兩種方法都是常見的分類算法,分類作為數據挖掘領域中一項非常重要的任務,它的目的是學會一個分類函數或分類模型(或者叫做分類器)。

      從目標函數來看,區別在於邏輯回歸采用的是logistical loss,svm采用的是hinge loss。這兩個損失函數的目的都是增加對分類影響較大的數據點的權重,減少與分類關系較小的數據點的權重。SVM的處理方法是只考慮support vectors,也就是和分類最相關的少數點,去學習分類器。而邏輯回歸通過非線性映射,大大減小了離分類平面較遠的點的權重,相對提升了與分類最相關的數據點的權重。兩者的根本目的都是一樣的。此外,根據需要,兩個方法都可以增加不同的正則化項,如l1,l2(相當於一范式、二范式)等等。所以在很多實驗中,兩種算法的結果是很接近的。
    但是邏輯回歸相對來說模型更簡單,好理解,實現起來,特別是大規模線性分類時比較方便。而SVM的理解和優化相對來說復雜一些。但是SVM的理論基礎更加牢固,有一套結構化風險最小化的理論基礎,雖然一般使用的人不太會去關注。還有很重要的一點,SVM轉化為對偶問題后,分類只需要計算與少數幾個支持向量的距離,這個在進行復雜核函數計算時優勢很明顯,能夠大大簡化模型和計算量。

     而SVM相對於logistic最大的特點在於其假設函數hθ(x)的非線性映射(使用多項式核、高斯核、RBF核等),使得SVM可以實現非線性分類;而logistic分類器雖然把自變量進行了logit變換,使得自變量與目標變量間不必滿足線性關系,只要滿足logit關系,本質上還是一個線性分類器。

6、 先驗概率與后驗概率

      先驗概率 ( Prior probability)先驗概率是在缺乏某個事實的情況下描述一個變量; 而后驗概率是在考慮了一個事實之后的條件概率.

7、 醫學疾病研究中選擇logistic回歸模型的合理性:

(1)     模型判斷你沒病但是你有病的概率很小;Logistic的優勢在於logistic很好的控制住了FPR,所以在兩類錯誤代價不一致時,如何選取還得仔細分析。

8、ROC曲線的來源及定義

     現代分類器很多都不是簡單地給出一個01 的分類判定,而是給出一個分類的傾向程度,比如貝葉斯分類器輸出的分類概率。對於這些分類器,當你取不同閾值,就可以得到不同的分類結果及分類器評價指標。我們還可以看到,隨着閾值的減小(更多的客戶就會被歸為正例),recall1-Specificity也相應增加(也即Specificity相應減少)。那么我們要動態的評價,一個合理的辦法就是把基於不同的閾值而產生的一系列recallSpecificity描繪到直角坐標上,就能更清楚地看到它們的對應關系。由於recallySpecificity的方向剛好相反,我們把sensitivity1-Specificity描繪到同一個圖中,它們的對應關系,就得到了傳說中的ROC曲線,全稱是receiver operating characteristic curve,中文叫“接受者操作特性曲線”。

9、規則化項L1與L2的區別:

   簡單地說:L1會趨向於產生少量的特征,而其他的特征權重都是0,因為L1能產生稀疏性;而L2會選擇更多的特征,這些特征都會接近於0.

             L1在特征選擇時非常有用;而L2就只是一種規則化而已,用於防止過擬合,提升模型的泛化能力,此外,從算法的底層優化計算 角度來說,L2更易處理某些條件下矩陣求逆的問題。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM