邏輯回歸要點（個人觀點，不一定正確）

本文轉載自查看原文 2014-11-16 00:23 3641 邏輯回歸機器學習數據挖掘

不是搞算法的，但最近用到這個，所以按個人的理解總結一下要點，可能有理解上的錯誤，歡迎指正批評。

目前場景是用於可能性預測。

1.邏輯回歸模型計算出來的是相對可能性，而非概率，所以非常適合topN選擇等問題；如果用於分類，則其用於分割的閾值通過指標參數確定。總體上來說，更適合求topN。

2.僅能用於線性問題，其實很多數學不是很好的人，對這個理解不深入，在使用Logistic Regression時注意選擇和target呈線性關系的feature。預先知道模型非線性時，果斷不使用Logistic Regression，切勿以為隨便塞入feature、維度足夠多就總會得到一個較為靠譜的模型。其終究是線性擬合，只是對規律的簡單近似，不符合哪些明顯其它相關性函數的場景。

3.各feature之間不需要滿足條件獨立假設，但各個feature的貢獻是獨立計算的。對相關的條件，會自動通過訓練分配參數。但LR是不會自動幫你combine 不同的features產生新feature（組合feature），而我們在做可能性預測時，組合feature正要性更高，所以千萬別偷懶。

4.決策樹等和邏輯回歸的分歧是：邏輯回歸對數據整體結構的分析優於決策樹，而決策樹對局部結構的分析優於邏輯回歸。邏輯回歸擅長分析線性關系，而決策樹對線性關系的把握較差。雖然對付非線性關系是決策樹的強項，但是很多非線性關系完全可以用線性關系作為近似，而且效果很好。線性關系在實踐中有很多優點：簡潔，易理解，可以在一定程度上防止對數據的過度擬合。邏輯回歸對極值比較敏感，容易受極端值的影響（因為所有樣本在最終的模型中相互影響），而決策樹在這方面表現較好。

5.決策樹由於采用分割的方法，所以能夠深入數據細部，但同時失去了對全局的把握。一個分層一旦形成，它和別的層面或節點的關系就被切斷了，以后的挖掘只能在局部中進行。同時由於切分，樣本數量不斷萎縮，所以無法支持對多變量的同時檢驗。而邏輯回歸，始終着眼整個數據的擬合，所以對全局把握較好。但無法兼顧局部數據，或者說缺乏探查局部結構的內在機制。

6.利用決策樹對局部數據結構優越的把握能力增加邏輯回歸的效力。在具體做法上有幾種，一種是從決策樹分析中找出數據局部結構，作為在邏輯回歸中構建依變量（interaction)的依據。另一種是在需要對預測因子進行離散化處理時，利用決策樹分析決定最佳切分點。還有一種是把決策樹分類的最終結果作為預測變量，和其他協變量一起代入回歸模型，又稱為“嫁接式模型”。從理論上講，嫁接模型綜合了決策樹和邏輯回歸的優點。最終節點包含了數據中重要的局部結構，而協變量可以拾補被決策樹遺漏的數據整體結構。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 正確理解ThreadLocal：ThreadLocal中的值並不一定是完全隔離的你不一定懂的cpu顯示信息圖示連續為什么不一定可導你不一定知道的UrlPrefix路由規則 top命令之你不一定懂的cpu顯示信息《Effective STL》讀書總結--關於STL 你不一定都懂的你不一定知道的幾個很有用的 Git 命令【你不一定知曉的】C#取消異步操作如何高效的遍歷Map？你常用的不一定是最快的多線程也不一定比單線程快