作者:蕭議
鏈接:https://www.zhihu.com/question/30037293/answer/46867665
來源:知乎
著作權歸作者所有,轉載請聯系作者獲得授權。
懲罰的核心目的是限制參數空間的大小以降低模型復雜度,懲罰本身反應你對對應的統計問題的某種先驗知識(比如回歸系數當中應該有很多0啊,回歸系數不應該太大啊)
比如n維線性回歸中的LASSO和一般的最小二乘回歸Least square,前者的回歸系數被限制在一個L1意義下的n維球內,而后者的參數空間則是R^n
再比如光滑樣條Smooth Spline通過對二階導數進行懲罰來控制擬合曲線的光滑程度
一些情況下,懲罰有獨特的概率上的解釋,比如假設正太噪聲的線性模型中,LASSO的L1懲罰相當於給回歸參數加上了一個Laplace prior,而嶺回歸Ridge regression中的L2懲罰則對應一般的normal prior
這樣的方法在統計中一般叫正則化Regularization,當然也可以叫懲罰Penalization,正則化由Tikhonov在解ill-posed equation時引入,通過加上懲罰項(一般來說是hilbert space上的Lp norm)來限制解可以取值的范圍以保證解的良好性質,比如唯一性。后來人們發現,很多問題如果你給他太大的空間,搜索出來的解即便存在唯一,往往也不夠好(under some other criteria, like predictive MSE, AIC, BIC ),這個涉及Occam Razor principle,統計中的bias variance trade off,擬合和預測的trade off啦,總的來說,讓參數們老實點,別亂跑,得到的結果會比較好。
懲罰似然 請去看Fan Jianqing的SCAD,沒記錯是98年的JASA
懲罰回歸 自然就去看Tibshirani的LASSO,96年的RoyalB,后面一堆follow up,還有tibshirani本人的review,此外還有Efron的LAR,早一點的Ridge Regression比較簡單,可以看看
懲罰樣條 去看Wahba的paper和書吧,此外記得Elements of Statistical Learning里面有講光滑樣條來着
PS:優化的話 其實統計這邊不是那么care。一般來說加上懲罰之后,院里的unconstrained optimization就變成了constrained optimization,求解的算法復雜度只可能持平或者變高,因為懲罰引入的constrained set可能是奇形怪狀的,離散的,非凸的。但是通過適當的選取懲罰可以避免太扯淡的np hard的問題。tenrence tao和candes的compressive sensing就是用L1的懲罰(凸優化)relax了本來很難求解的L0懲罰(整數規划),然后證明了在一定的稀疏性條件下,新的優化問題的解收斂到原問題的解。嶺回歸有顯式解,LASSO雖然沒有但是可以在最小二乘的時間復雜度內解出來,最后還有諸如SCAD等等non-convex的懲罰。。。對於這部分非凸的懲罰我只能說,統計性質或許很不錯但是計算角度來看實在是不靠譜。。。但是咱們搞統計的不care~
