稀疏編碼學習筆記整理（一）

本文轉載自查看原文 2014-08-26 11:29 14683

最近新入手稀疏編碼，在這里記錄我對稀疏編碼的理解（根據學習進度不斷更新中）

一，稀疏編碼的概述

稀疏編碼的概念來自於神經生物學。生物學家提出，哺乳類動物在長期的進化中，生成了能夠快速，准確，低代價地表示自然圖像的視覺神經方面的能力。我們直觀地可以想象，我們的眼睛每看到的一副畫面都是上億像素的，而每一副圖像我們都只用很少的代價重建與存儲。我們把它叫做稀疏編碼，即Sparse Coding.

1959年,David Hubel和Toresten Wiesel通過對貓的視覺條紋皮層簡單細胞感受野的研究得出一個結論:主視皮層V1區神經元的感受野能對視覺感知信息產生一種“稀疏表示”.基於這一知識。

1961年,H.B.Barlow[5]提出了“利用感知數據的冗余”進行編碼的理論.

1969年,D.J.Willshaw和O.P.Buneman等人提出了基於Hebbian 學習的局部學習規則的稀疏表示模型.這種稀疏表示可以使模型之間有更少的沖突,從而使記憶能力最大化.Willshaw模型的提出表明了稀疏表示非常有利於學習神經網絡中的聯想.

1972年,Barlow推論出在稀疏性 (Sparsity)和自然環境的統計特性之間必然存在某種聯系.隨后,有許多計算方法被提出來論證這個推論,這些方法都成功地表明了稀疏表示可以體現出在大腦中出現的自然環境的統計特性.

1987年,Field提出主視皮層V1區簡單細胞的感受野非常適於學習視網膜成像的圖像結構,因為它們可以產生圖像的稀疏表示.基於這個結論,1988年,Michison明確提出了神經稀疏編碼的概念,然后由牛津大學的E.T.Roll 等人正式引用.隨后對靈長目動物視覺皮層和貓視覺皮層的電生理的實驗報告,也進一步證實了視覺皮層復雜刺激的表達是采用稀疏編碼原則的.

1989年,Field提出了稀疏分布式編碼(Sparse Distributed Coding)方法.這種編碼方法並不減少輸入數據的維數 ,而是使響應於任一特殊輸入信息的神經細胞數目被減少,信號的稀疏編碼存在於細胞響應分布的四階矩(即峭度 Kurtosis)中.

1996年,Olshausen和Field在Nature雜志上發表了一篇重要論文指出,自然圖像經過稀疏編碼后得到的基函數類似於V1區簡單細胞感受野的反應特性.這種稀疏編碼模型提取的基函數首次成功地模擬了V1區簡單細胞感受野的三個響應特性:空間域的局部性、時域和頻域的方向性和選擇性.考慮到基函數的超完備性(基函數維數大於輸出神經元的個數),Olshausen 和Field在1997年又提出了一種超完備基的稀疏編碼算法,利用基函數和系數的概率密度模型成功地建模了V1區簡單細胞感受野.

1997年,Bell和Sejnowski 等人把多維獨立分量分析(Independent Component Analysis, ICA)用於自然圖像數據分析,並且得出一個重要結論:ICA實際上就是一種特殊的稀疏編碼方法.

21世紀以來,國外從事稀疏編碼研究的人員又提出了許多新的稀疏編碼算法,涌現出了大量的稀疏編碼方面的論文,國內研究者在稀疏編碼算法和應用方面也作了一些工作],但遠遠落后於國外研究者所取得的成果.

稀疏編碼的目的：在大量的數據集中，選取很小部分作為元素來重建新的數據。

稀疏編碼難點：其最優化目標函數的求解。

二，稀疏線性模型

X為一個n為特征向量，可以是一個小波信號，可以是一副圖片等。

D為標准化的基礎矩陣，由組成元素的基本原子構成，也稱為字典。在信號中可以是不同頻率的波形，在圖像中可以是構成圖像的基本邊，角。

X可以由D中和少量原子線性組合而成，及其表示系數為稀疏。如下：

三、數學模型

引出稀疏表示的兩個基本要求 1：盡可能與原特征相似

2 : 系數為稀疏。

有上圖中，我們要求p>m，根據線性代數的知識我們知道，稀疏系數有無窮多組的解。根據稀疏的條件，我們可以在所有的可行解中挑出非零元素最少的解，也就是滿足稀疏性。於是得到如下的數學模型：

如果再考慮噪聲的話，就得到如下的模型:

目標函數中為L0范數約束，是非確定性多項式（NP）難題，即是指可以在多項式時間內被非確定機(他可以猜,他總是能猜到最能滿足你需要的那種選擇,如果你讓他解決n皇后問題,他只要猜n次就能完成----每次都是那么幸運)解決的問題.

有人做了一個證明，在一定條件下，上述的最優化問題有唯一的解。

Terry tao又證明了，在滿足一定條件下，零范數問題與一范數問題是等價的。於是上述模型轉化為：

四、L0范數與L1范數

L0范數是指向量中非0的元素的個數。如果我們用L0范數來規則化一個參數矩陣W的話，就是希望W的大部分元素都是0。這太直觀了是不是？，換句話說，讓參數W是稀疏的。OK，看到了“稀疏”二字，大家應該意識到，原來用的漫山遍野的“稀疏”就是通過這玩意來實現的。但是看到的papers世界中，稀疏不是都通過L1范數來實現嗎？這個時候你又該懷疑了，腦海里是不是到處都是||W||₁影子呀！幾乎是抬頭不見低頭見。沒錯，這就是這節的題目把L0和L1放在一起的原因，因為他們有着某種不尋常的關系。那我們再來看看L1范數是什么？它為什么可以實現稀疏？為什么大家都用L1范數去實現稀疏，而不是L0范數呢？

L1范數是指向量中各個元素絕對值之和，也有個美稱叫“稀疏規則算子”（Lasso regularization）。現在我們來分析下這個價值一個億的問題：為什么L1范數會使權值稀疏？有人可能會這樣給你回答“它是L0范數的最優凸近似”。實際上，還存在一個更美的回答：任何的規則化算子，如果他在W_i=0的地方不可微，並且可以分解為一個“求和”的形式，那么這個規則化算子就可以實現稀疏。這說是這么說，W的L1范數是絕對值，|w|在w=0處是不可微，但這還是不夠直觀。這里因為我們需要和L2范數進行對比分析。所以關於L1范數的直觀理解，請待會看看第二節。

那么還有一個問題：既然L0可以實現稀疏，為什么不用L0，而要用L1呢？本人查資料理解為兩點：

1.因為L0范數很難優化求解（NP難問題）

2.L1范數是L0范數的最優凸近似，而且它比L0范數要容易優化求解。所以大家才把目光和萬千寵愛轉於L1范數。

小結：L1范數和L0范數可以實現稀疏，L1因具有比L0更好的優化求解特性而被廣泛應用。

好，到這里，我們大概知道了L1可以實現稀疏，但我們會想呀，為什么要稀疏？讓我們的參數稀疏有什么好處呢？這里扯兩點：

1）特征選擇(Feature Selection)：

傳統的pattern recognition為：

進行特征提取后為：

原始的模式識別是直接對原始圖形進行特征提取，而所提取出來的特征和最終的輸出很多情況下其實是有冗余成分的，就是說我們只需要關鍵特征識別就可以，沒有必要用那么多特征，更多情況下，那些冗余信息會干擾我們最后的識別結果！

稀疏編碼算法是一種無監督學習方法，它用來尋找一組“超完備”基向量來更高效地表示樣本數據。大家對稀疏規則化趨之若鶩的一個關鍵原因在於它能實現特征的自動選擇。一般來說，x_i的大部分元素（也就是特征）都是和最終的輸出y_i沒有關系或者不提供任何信息的，在最小化目標函數的時候考慮x_i這些額外的特征，雖然可以獲得更小的訓練誤差，但在預測新的樣本時，這些沒用的信息反而會被考慮，從而干擾了對正確y_i的預測。稀疏規則化算子的引入就是為了完成特征自動選擇的光榮使命，它會學習地去掉這些沒有信息的特征，也就是把這些特征對應的權重置為0。

2）可解釋性(Interpretability)：

另一個青睞於稀疏的理由是，模型更容易解釋。例如患某種病的概率是y，然后我們收集到的數據x是1000維的，也就是我們需要尋找這1000種因素到底是怎么影響患上這種病的概率的。假設我們這個是個回歸模型：y=w₁*x₁+w₂*x₂+…+w₁₀₀₀*x₁₀₀₀+b（當然了，為了讓y限定在[0,1]的范圍，一般還得加個Logistic函數）。

說簡單些，logistic函數其實就是這樣一個函數：

$P(t) = \frac{1}{1 + e^{-t}}$

這個函數的曲線如下所示：

File:Logistic-curve.svg

很像一個“S”型吧，所以又叫 sigmoid曲線（S型曲線）。詳細的資料可以參考 http://www.cnblogs.com/chaosimple/archive/2013/06/10/3130628.html

通過學習，如果最后學習到的w*就只有很少的非零元素，例如只有5個非零的w_i，那么我們就有理由相信，這些對應的特征在患病分析上面提供的信息是巨大的，決策性的。也就是說，患不患這種病只和這5個因素有關，那醫生就好分析多了。但如果1000個w_i都非0，醫生面對這1000種因素，累覺不愛。

本節至此結束，之后會錄取更新，同時我的新浪博客有學習記錄總結，希望可以和各方學者交流成長http://blog.sina.com.cn/u/2029100307

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 稀疏編碼學習筆記（二）L2范數稀疏編碼之字典學習稀疏編碼和字典學習深度學習UFLDL老教程筆記1 稀疏自編碼器Ⅰ 深度學習UFLDL老教程筆記1 稀疏自編碼器Ⅱ UFLDL深度學習筆記（一）反向傳播與稀疏自編碼深度學習入門教程UFLDL學習實驗筆記一：稀疏自編碼器《深度學習》學習筆記（一）：稀疏自編碼器（Sparse Autoencoder）深度學習淺層理解（四）-- 稀疏編碼《神經網絡與深度學習》（三）稀疏編碼