邏輯回歸要點(個人觀點,不一定正確)


不是搞算法的,但最近用到這個,所以按個人的理解總結一下要點,可能有理解上的錯誤,歡迎指正批評。

目前場景是用於可能性預測。

1.邏輯回歸模型計算出來的是相對可能性,而非概率,所以非常適合topN選擇等問題;如果用於分類,則其用於分割的閾值通過指標參數確定。總體上來說,更適合求topN。

2.僅能用於線性問題,其實很多數學不是很好的人,對這個理解不深入,在使用Logistic Regression時注意選擇和target呈線性關系的feature。預先知道模型非線性時,果斷不使用Logistic Regression,切勿以為隨便塞入feature、維度足夠多就總會得到一個較為靠譜的模型。其終究是線性擬合,只是對規律的簡單近似,不符合哪些明顯其它相關性函數的場景。

3.各feature之間不需要滿足條件獨立假設,但各個feature的貢獻是獨立計算的。對相關的條件,會自動通過訓練分配參數。但LR是不會自動幫你combine 不同的features產生新feature(組合feature),而我們在做可能性預測時,組合feature正要性更高,所以千萬別偷懶。

4.決策樹等和邏輯回歸的分歧是:邏輯回歸對數據整體結構的分析優於決策樹,而決策樹對局部結構的分析優於邏輯回歸。邏輯回歸擅長分析線性關系,而決策樹對線性關系的把握較差。雖然對付非線性關系是決策樹的強項,但是很多非線性關系完全可以用線性關系作為近似,而且效果很好。線性關系在實踐中有很多優點:簡潔,易理解,可以在一定程度上防止對數據的過度擬合。邏輯回歸對極值比較敏感,容易受極端值的影響(因為所有樣本在最終的模型中相互影響),而決策樹在這方面表現較好。

5.決策樹由於采用分割的方法,所以能夠深入數據細部,但同時失去了對全局的把握。一個分層一旦形成,它和別的層面或節點的關系就被切斷了,以后的挖掘只能在局部中進行。同時由於切分,樣本數量不斷萎縮,所以無法支持對多變量的同時檢驗。而邏輯回歸,始終着眼整個數據的擬合,所以對全局把握較好。但無法兼顧局部數據,或者說缺乏探查局部結構的內在機制。

6.利用決策樹對局部數據結構優越的把握能力增加邏輯回歸的效力。在具體做法上有幾種,一種是從決策樹分析中找出數據局部結構,作為在邏輯回歸中構建依變量(interaction)的依據。另一種是在需要對預測因子進行離散化處理時,利用決策樹分析決定最佳切分點。還有一種是把決策樹分類的最終結果作為預測變量,和其他協變量一起代入回歸模型,又稱為“嫁接式模型”。從理論上講,嫁接模型綜合了決策樹和邏輯回歸的優點。最終節點包含了數據中重要的局部結構,而協變量可以拾補被決策樹遺漏的數據整體結構。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM