這里討論機器學習中L1正則和L2正則的區別。
在線性回歸中我們最終的loss function如下:

那么如果我們為w增加一個高斯先驗,假設這個先驗分布是協方差為
的零均值高斯先驗。我們在進行最大似然:


這個東西不就是我們說的加了L2正則的loss function嗎?
同理我們如果為w加上拉普拉斯先驗,就可以求出最后的loss function也就是我們平時說的加了L1正則:

因為拉普拉斯的分布相比高斯要更陡峭,它們的分布類似下圖,紅色表示拉普拉斯,黑色表示高斯

可以看出拉普拉斯的小w的數目要比高斯的多,w的分布陡峭,而高斯的w分布較為均勻。也就是說,l1正則化更容易獲得稀疏解,還可以挑選重要特征。l2正則有均勻化w的作用。
