LASSO問題及其最優解

本文轉載自查看原文 2014-11-06 22:47 4469

轉載，原文地址：http://blog.csdn.net/xidianzhimeng/article/details/20856047

Sparsity 是當今機器學習領域中的一個重要話題。John Lafferty 和 Larry Wasserman 在 2006 年的一篇評論中提到：

Some current challenges … are high dimensional data, sparsity, semi-supervised learning, the relation between computation and risk, and structured prediction.John Lafferty and Larry Wasserman. Challenges in statistical machine learning. Statistica Sinica. Volume 16, Number 2, pp. 307-323, 2006.

Sparsity 的最重要的客戶大概要屬 high dimensional data 了吧。現在的機器學習問題中，具有非常高維度的數據隨處可見。例如，在文檔或圖片分類中常用的 bag of words 模型里，如果詞典的大小是一百萬，那么每個文檔將由一百萬維的向量來表示。高維度帶來的的一個問題就是計算量：在一百萬維的空間中，即使計算向量的內積這樣的基本操作也會是非常費力的。不過，如果向量是稀疏的的話（事實上在 bag of words 模型中文檔向量通常都是非常稀疏的），例如兩個向量分別只有

當然高維度帶來的問題不止是在計算量上。例如在許多生物相關的問題中，數據的維度非常高，但是由於收集數據需要昂貴的實驗，因此可用的訓練數據卻相當少，這樣的問題通常稱為small ——我們一般用

f (x) = \sum j = 1 p w j x j = w T x

使用 square loss 來進行學習的話，就變成最小化如下的問題

J (w) = 1 n \sum i = 1 n ( y i - f ( x i ) ) 2 = 1 n ∥ y

這里

eq: 1 »

w ˆ = (X T X) - 1 X T y

然而，如果

者更確切地說，將會有無窮多個解。也就是說，我們的數據不足以確定一個解，如果我們從所有可行解里隨機選一個的話，很可能並不是真正好的解，總而言之，我們 overfitting 了。

解決 overfitting 最常用的辦法就是 regularization ，例如著名的 ridge regression 就是添加一個

J R (w) = 1 n ∥ y - X w ∥ 2 + λ ∥ w ∥ 2

直觀地來看，添加這個 regularizer 會使得模型的解偏向於 norm 較小的

min w 1 n ∥ y - X w ∥ 2 ,

其中

不過，特別是在像生物或者醫學等通常需要和人交互的領域，稀疏的解除了計算量上的好處之外，更重要的是更具有可解釋性。比如說，一個病如果依賴於 5 個變量的話，將會更易於醫生理解、描述和總結規律，但是如果依賴於 5000 個變量的話，基本上就超出人肉可處理的范圍了。

在這里引入稀疏性的方法是用

eq: 2 »

J L (w) = 1 n ∥ y - X w ∥ 2 + λ ∥ w ∥ 1

該問題通常被稱為 LASSO (least absolute shrinkage and selection operator) 。LASSO 仍然是一個 convex optimization 問題，不過不再具有解解析解。它的優良性質是能產生稀疏性，導致

可是，為什么它能產生稀疏性呢？這也是一直讓我挺感興趣的一個問題，事實上在之前申請學校的時候一次電話面試中我也被問到了這個問題。我當時的回答是背后的理論我並不是很清楚，但是我知道一個直觀上的理解。下面我們就先來看一下這個直觀上的理解。

首先，很 ridge regression 類似，上面形式的 LASSO 問題也等價於如下形式：

解決 overfitting 最常用的辦法就是 regularization ，例如著名的 ridge regression 就是添加一個

J R (w) = 1 n ∥ y - X w ∥ 2 + λ ∥ w ∥ 2

直觀地來看，添加這個 regularizer 會使得模型的解偏向於 norm 較小的

min w 1 n ∥ y - X w ∥ 2 ,

其中

在這里引入稀疏性的方法是用

eq: 2 »

J L (w) = 1 n ∥ y - X w ∥ 2 + λ ∥ w ∥ 1

首先，很 ridge regression 類似，上面形式的 LASSO 問題也等價於如下形式：

min w 1 n ∥ y - X w ∥ 2 ,

也就是說，我們將模型空間限制在

fig: 1 »

可以看到，

相比之下，

不過，如果只限於 intuitive 的解釋的話，就不那么好玩了，但是背后完整的理論又不是那么容易能夠搞清楚的，既然這次的標題是 Basics ，我們就先來看一個簡單的特殊情況好了。

接下來我們考慮 orthonormal design 的情況：

注意到 LASSO 的目標函數 (eq: 2) 是 convex 的，根據 KKT 條件，在最優解的地方要求 gradient

def: 1 »

定義 subgradient; subdifferential

對於在

f (x) - f (x 0) \geq v \cdot (x - x 0)

由在點

注意 subgradient 和 subdifferential 只是對凸函數定義的。例如一維的情況，

性質 condition for global minimizer

點

證明很簡單，將

eq: 3 »

w ˆ = 1 n X T y

然后我們再來看 LASSO ，假設

gradient 存在，此時

由於 gradient 在最小值點必須要等於零，我們有

\partial J L ( w ) \partial w j ∣∣∣ w ˉ j = 0

亦即

- 2 n ( X T y - X T X w ˉ ) j + λ sign ( w ˉ j ) = 0

根據 orthonormal design 性質以及 least square 問題在 orthonormal design 時的解 (eq: 3) 化簡得到

w ˉ j = w ˆ j - λ 2 sign ( w ˉ j )

從這個式子也可以明顯看出

w ˉ j = w ˆ j - λ 2 sign ( w ˆ j ) = sign ( w ˆ j ) ( ∣∣

再用一次

∣∣ w ˆ j ∣∣ - λ 2 = ∣∣ w ˉ j ∣∣ \geq 0

於是剛才的式子可以進一步寫為

eq: 4 »

w ˉ j = sign (w ˆ j) (∣∣ w ˆ j ∣∣ - λ 2 ) +

這里

gradient 不存在，此時

根據 subgradient 在最小值點處的性質的性質，此時比有

0 = w ˉ j \in \partial J L (w ˉ) = {- 2 n ( X T

亦即存在

0 = 2 w ˉ j - 2 w ˆ j + λ e 0 = 2 w ˆ j + λ e 0

於是

| w ˆ j | = λ 2 | e 0 | \leq λ 2

又因為

fig: 2 »

圖上畫了原始的 least square 解，LASSO 的解以及 ridge regression 的解，用上面同樣的方法（不過由於 ridge regularizer 是 smooth 的，所以過程卻簡單得多）可以得知 ridge regression 的解是如下形式

2 1 + 2 λ w ˆ j

可以 ridge regression 只是做了一個全局縮放，而 LASSO 則是做了一個 soft thresholding ：將絕對值小於

l2正則可以防止參數估計的過擬合，但是選擇合適lambda比較困難，需要交叉驗證。如果有個特征與輸出結果不相關，則L2會給一個特別小的值，但是不會為0.

l1正則會產生稀疏解，即不相關的的特征對應的權重為0，就相當於降低了維度。但是l1的求解復雜度要高於l2,並且l1更為流行

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 局部最優解與全局最優解（轉）貪婪算法硬幣找零最優解問題證明貪婪算法硬幣找零最優解問題證明2 最優解算法的討論局部最優解最優解的lingo和MATLAB解法利用蒙特卡洛方法實現21點問題的最優解(內含python源碼) 拉格朗日乘數法解含不等式約束的最優化問題多機作業排序問題－約翰遜算法和帕爾默法求最優解詳解股票買賣算法的最優解(一)