論文標題:Support Vector Method for Novelty Detection
論文作者:Bernhard Scholkopf, Robert Williamson, Alex Smola .....
論文地址:http://papers.nips.cc/paper/1723-support-vector-method-for-novelty-detection.pdf
聲明:小編翻譯論文僅為學習,如有侵權請聯系小編刪除博文,謝謝!
小編是一個機器學習初學者,打算認真學習論文,但是英文水平有限,所以論文翻譯中用到了Google,並自己逐句檢查過,但還是會有顯得晦澀的地方,如有語法/專業名詞翻譯錯誤,還請見諒,並歡迎及時指出。
如果需要小編其他論文翻譯,請移步小編的GitHub地址
傳送門:請點擊我
如果點擊有誤:https://github.com/LeBron-Jian/DeepLearningNote
摘要
假設給你一個從基本概率分布P中提取的數據集,你想估計一個輸入空間的“簡單”子集,這樣從 P中提取的測試點位於S 之外的概率等於和之間指定的某個先驗概率。我們提出了一種方法來解決這個問題,嘗試估計一個函數 f ,它在S上是正的,在補語上是負的。f的函數形式是根據訓練數據的一個潛在的小子集通過核展開給出的;它是通過控制相關特征空間中權重向量的長度來正則化的。我們對算法的統計性能進行了理論分析。該算法是支持向量算法對未標記數據的自然擴展。
1,介紹
近年來,一套新的監督學習核心技術被開發出來[8]。特別是用於模式識別,回歸估計和反問題求解的支持向量(SV)算法受到了廣泛的關注。有幾次嘗試將利用核函數計算特征空間內積的思想轉移到無監督學習領域。然而,該領域中的問題沒有那么明確。一般來說,他們可以被描述為數據的估計函數,這些函數告訴您關於底層分布的一些有趣的信息。例如,核主成分分析可以被描述為對訓練數據產生單位方差輸出而在特征空間具有最小范數的計算函數[4]。另一種基於核的無監督學習技術,正則化主流形[6],其計算函數可以映射到低維流行上,從而最大程度地減少了正則化量化誤差。聚類算法是可以被內核化的無監督學習技術的進一步示例。
一個極端的觀點是,無監督學習是關於估計密度的,顯然,對於P的密度的了解將使我們能夠解決根據數據可以解決的任何問題,本工作解決了一個更簡單的問題:提出了一種算法,該算法計算一個二進制函數,該函數應捕獲概率密度存在的輸入空間中的區域(它的支持),即使大多數數據都位於該區域中的函數 函數為非零[5]。這樣做,是符合瓦普尼克(Vapnik)的原則,永遠不解決比我們實際需要解決的問題更普遍的問題。此外,它也適用於數據分布密度甚至沒有很好定義的情況,例如,如果存在奇異成分,本研究的主要動機是論文[1],事實證明,之前的工作量很大。
2,算法
我們首先介紹術語和符號慣例,我們考慮訓練數據 x1, x2....xl 屬於 X ,其中 l 屬於N 是觀測的數量,X是一些集合。為了簡單起見,我們將其設為 RN 的一個緊湊子集。設 Φ 是 X -> F 的特性映射,即到點積空間F中的映射,使得Φ 的圖像點積可以通過評估一些簡單的核來計算
例如高斯核:
索引 i 和 j 被認為在 i,....,j 的范圍內(簡寫為:i, j 屬於 [l])粗體的希臘字母表示 l-維向量,其分量用普通字體標注。
在本節的其余部分中,我們將開發一種算法,該算法返回一個函數F,該函數在捕獲大部分數據點的“小”區域中取值 +1,而在其他地方則取值 -1。我們的策略是將數據映射到與內核相對應的特征空間中,並以最大的余量將他們與原點分開。對於新點 x,值f(x) 是通過評估特征空間上落在超平面的哪一側來確定。通過自由利用不同類型的核函數,此簡單的幾何圖像對應於輸入空間中的各種非線性估計。
該問題的優化目標與二分類 SVM 略微不同,但依然很相似。
為了將數據集與原點分離,我們求解一下二次規划:
此處,v屬於(0, 1) 是一個參數,其含義稍后將變得清楚。由於非零松弛變量 ξi 在目標函數中受到懲罰,我們可以預期,如果 w 和 p解決了這個問題,則對於訓練集中包含的大多數示例 xi ,決策函數 f(x) = sgn((w*Φ(x))-p) 將會為正,而SV類型正則項 W 仍然很小。這兩個目標之間的實際權衡由 v 控制的。導出對偶問題,並使用(1),可以證明該解決方案具有 SV 展開。
注意,這里的 v 類似於二分類 SVM 中的C,同時:
- 1, v 為異常值的分數設置了一個上限(訓練數據集里面被認為是異常的)
- 2, v 是訓練數據集里面做為支持向量的樣例數量的下屆
因為這個參數的重要性,這種方法也被稱為 v-SVM 。采用 Lagrange技術並且采用 dotproduct calculation,確定函數如下:
具有非零 i 的模式 Xi 稱為SV,其中找到系數作為對偶問題的解:
可以使用標注QP例程解決此問題。然而,它確實擁有一些特性,使其與一般 qp 不同,最顯著的時約束的簡單性。可以通過應用為此目的開發的 SMO 變體加以利用[3]。
偏移量p可以通過利用對於不在上限或下限的任何 αi 的對應模式 xi 滿足 ρ = (w*Φ(x))=。。。
注意,如果 v 接近,Lagrange 乘子的上界區域無窮大,即(6)中的第二個不等式約束變為無效。從原始目標函數(3)可以看出,由於錯誤的懲罰變得無限,因此,這個問題類似於相應的硬邊界算法,可以證明如果數據集與原點可分離,則該算法將找到具有唯一屬性的支持超平面,並且在所有此類超平面中,距原點的距離最大[3]。另一方面,如果 v 接近1,則僅約束允許一個解,即所有 i 都在上限 1/(vl) 處。在這種情況下,對於具有整數1 的內核,例如(2)的規范化版本,決策函數對應於閾值 Parzen 窗口估計器。
作為本節的總結,我們注意到,人們還可以使用球來描述特征空間的數據,其實質與【2】的算法(具有硬邊界)和【7】的算法(具有軟邊界)密切相關。對於某些類的核,例如高斯RBF核,可以顯示出相應的算法與上面的算法是等價的【3】。
3,理論
在這一節中,我們證明了參數表征了SVs和離群值的分數(命題1)。然后,我們給出了軟邊值(命題2)和誤差界(命題5)的魯棒性結果。進一步的結果和證明已在本論文中的全文中報告【3】。我們將使用斜體字母表示輸入空間中對應模式的特征空間圖形,即 xi: = Φ(Xi)。
命題1 假設(4)的解滿足 p!=0,以下陳述成立:
(1)是離群值部分的上限
(2)是SVs分數的下限
(3)假設數據是獨立與不包含離群分量的分布 P(x) 生成的。此外,假設內核是分析性的並且是非恆定的。漸進的,概率為1,等於SV的分數和異常值的分數。
證明基於對偶問題的約數,適用了離群值必須在上限處具有拉格朗日乘數的事實。
命題2 與W平行的離群值的局部運動不會改變超平面。
我們現在繼續討論一般化的問題。我們的目標是將從相同的基本分布中提取新點位於估計區域之外的概率限制在一定的范圍內。我們首先介紹一個通用工具,用於測量映射X到R的F類函數的容量。
命題3 設(X,d)為偽度量空間,令A為X的子集且epsilon>0。如果每個a屬於A,都存在b屬於B,使得d(a, b)<=epsilon,A的 epsilon-conver Nd(epsilon, A) 是A的epsilon-cover 的最小基數(如果沒有這樣的有限覆蓋,則定義為無窮大)
這個想法是B應該是有限的,但相對於偽度量 d 近似於A的全部。我們將在有限空間樣本 X=(X1...Xl) 上的 L無窮 距離用於函數空間中的偽度量。 下面的對數以2為底。
命題4 考慮到任何P在X的分布,和任何 rho 屬於R,假設x1,....xl 是來自P的i.i.d,然而,如果我們發現 f屬於F使得對於所有的 f(xi) = -theta + rho
我們現在考慮對於少數點 f(xi)不能超過 a+b 的可能性,這相當於在算法中具有一個非零的松弛變量 epsilon i ,在定理的應用中,我們取 gama + theta=rho/||W|| 並使用特征空間中的線性函數類,覆蓋此類的日志有眾所周知的界限。令f 為空間 X 上的實值函數。在theta 屬於R,x 屬於 X,定義
類似的,對於一個訓練序列 X,我們定義
命題5 令 theta=R,考慮一個固定但未知的概率分布P在輸入空間 X 和范圍為[a, b]的一類實數函數F。然后 對於所有的隨機繪制的在大小為 l 的訓練序列 x,對於所有的 tho>0 並且任何的 f 屬於 F,有:
該定理限制了一個新點落入 f(x)的值小於 rho-gamma,這是對分配支持的估計的補充。對的選擇在邊界所保持的區域的大小(r增加,區域的大小)與它所保持的概率的大小(r 增加,對數覆蓋數的大小)之間進行權衡。
結果表明,我們可以用涉及對數覆蓋數之比(可以由與 r 成比例的脂肪破碎位數來界定)與訓練次數之比的數量來限制點落在估計支持范圍之外的概率。示例,再加上涉及松弛變量1范數的因子。它比【1】給出的相關結果更強,因為他們的邊界涉及Pollard維數(r趨於0時的脂肪破碎位數)與訓練樣本數之比的平凡根。
輸出的算法描述在Sec.2,是一個函數 f(x) 在示例 xi上大於或等於i。盡管在輸入控件中是非線性的,但是這函數實際上在內核k 定義的特征空間中是線性的。同時,權向量的2范數的權限向量是B給出的。因此我們可以將定理應用到函數類F為空間特征中以B為邊界的2范數的那些線性函數。如果我們假設 theta是已知的,然后 gamma=rho-theta,因此分布的集合是支持集合的。並且根據函數類別F的對數覆蓋范圍和松弛變量 ξi 的總和,邊界給出了隨機生成的點落在該集合之外的可能性,由於F級的對數覆蓋數可以由 O限制,因此就權重向量的2范數給出了一個限制。由於日志覆蓋數在 類F 的 gamma/2 可以在 O 給出的范圍內,這給出了權向量的2范數的界。
理想情況下,人們希望在確定 theta 的值后選擇 tho,也許將其作為該值的固定分數。這可以通過在某個可能值的 rho 或至少一個網格的可能值上將結果風險最小化的另一個級別來實現。該結果超出了當前初步論文的范圍,但是結果的形式類似於定理5,具有更大的常數和對數因子。
雖然給出具體的理論建議以供實際使用尚未過早,但從上述界限可以清楚地看出一件事。為了歸納為異常的數據,要使用的決策函數應該采用 閾值 eta*rho,其中 eta<1( rho 對應一個非零值)
4,實驗
我們將該方法應用於人工數據和真實數據,圖1展示了二維玩具示例,並顯示了參數設置如何影響解決方案。
接下來,我們描述了對於 USPS 手寫數字數據集的實驗。該數據庫包含大小Wie 16*16=256 的9298 位數字圖像;最后的2007年構成測試集。我們在測試集上使用寬度 c = 0.5*256(該數據集上SVM分類器的通用值,參見【2】)的高斯核訓練了該算法,並用它來識別離群值——是社區中的民間傳說,由於分割錯誤或標簽錯誤,USPS測試集包含許多難以分類或無法分類的模式。在實驗中,我們將輸入模式增加了十個與數字的類別標簽相對應的維度。這樣做的理由是,如果我們忽略標簽,就沒有希望將錯誤標簽的模式識別為異常值。圖2顯示了USPS測試集的20個最差離群值。注意,該算法確實提取出很難分配給他們各自類別的模式。在實驗中,在以 450 MHz 運行的 Pentium || 上花費了幾秒鍾,我們使用了 5% 的 v 值。
圖1,前兩張圖片,適用於兩個玩具問題的單類SVM;v=c=0.5,域:[-1, 1]2,請注意,在這兩種情況下,所有示例中至少 v 的一小部分如何位於估計區域中(參見表)。v的較大的值導致左上角的其他數據點對決策功能幾乎沒有影響。對於較小的v值,例如 0.1(第三張圖片),這些點將不再被忽略。或者,可以通過更改內核寬度(2)來強制算法將這些“離群值”考慮在內:在第四張圖片中,使用 c=0.1,v=0.5 可以在不同的長度范圍內有效的分析數據,這導致算法考慮了離群值是有意義的點。
圖2:由提出的算法識別的離群值,按SVM的負輸出(決策函數中 sgn的自變量)排名。輸出(為了方便起見,以 10**-5為單位)以斜體寫在每個圖像的下方,(對應的 )類標簽以粗體顯示。請注意,大多數示例都是“困難”的,因為他們不是典型的,甚至標記錯誤的。
5,討論
可以將當前的工作視為提供一種符合 Vapnik 原理的算法的嘗試,該算法永遠不會解決比實際感興趣的問題更籠統的問題。例如,在僅對檢測感興趣的情況下 異常,並不一定總是需要顧及數據的完整密度模型。的確,在幾個方面,密度估算比我們所做的更加困難。
從數學上講,僅當基礎概率測度具有絕對連續的分布函數時,密度才會存在。估計大類集合的度量的一般問題(例如,以Borel的意義衡量的集合)是無法解決的(有關討論,請參見【8】)。因此,我們需要限制自己對某些集合的度量進行陳述。給定一類集合,完成此任務的最簡單估計器是經驗測度,它只是查看有多少訓練點落入感興趣區域。我們的算法則相反,它從應該落入該區域的的訓練點數量開始,然后估計具有所需熟悉的區域。通常,會有很多這樣的區域解方案通過應該正則化器才能變得唯一,在我們的情況下,這強制了該區域在與內核關聯的特征空間中較小。當然,這意味着,在這種意義上,較小程度的度量取決於所使用的內核,其方式與在特征空間中進行正則化的任何其他方式沒有什么不同。但是,在輸入空間中進行密度估計時,已經出現了類似的問題。令 P 表示 X 上的密度。如果我們在輸入域 X 中執行(非線性)坐標變換,則密度值將發生變化;粗略地說,保持不變的是 px*dx,而 dx 也進行了轉換。當直接估計區域的概率度量時,我們不會遇到這個問題,因為區域會相應的自動更改。
我們選擇使用的小度量的一個吸引人的屬性是,它也可以在正則化理論的上下文中,從而導致該解在某種程度上取決於所使用的特定內核而被解釋為最大平滑【3】
我們的方法的主要靈感來自 Vapnik和合作者的早期工作。他們提出了一種算法,該算法通過使用超平面將其與原點分離來表征一組未標記的數據點【9】。但是,無論從算法還是從那時開始的統計學習理論的理論發展來看,他們都迅速轉向了兩類分類問題。從算法的角度來看,我們可以找出原始方法的兩個缺點,這些缺點可能導致該放下的研究停止了三十多年。首先,原始算法僅限於輸入空間中的線性決策規則,其次,無法處理離群值,結合起來,這些限制確實很嚴格-通用數據集不需要通過輸入空間中的超平面與原點分離。我們合並的兩個修改消除了這些缺點。首先,內核技巧通過非線性映射到高維特征空間中提供了更大的功能類別,從而增加了與原點分離的機會。特別是,使用高斯核(2),對於任何數據集 x1....xl 都存在這樣的分類,x:要看清楚這一點,請注意,對於所有的 K(Xi, Xj) >0,因此所有點積均為正,暗示所有映射的模式都在同一個 orthant內。此外,由於所有的 i 的 k(Xi, Xj)=1 因此他們具有單位長度。因此他們與原點是可分離的。第二張修改允許出現異常值的可能性。我們使用 trick 結合了決策規則的“軟性”,因此可以直接處理異常值。
我們認為我們的方法提出了一種具有良好計算復雜度的具體算法(凸二次規划),以解決迄今為止主要從理論角度進行研究的問題,具有廣泛的實際應用。為了使該算法稱為從業人員易於使用的黑盒方法,必須解決諸如選擇內核參數(例如高斯內核的寬度)之類的問題,我們期望我們在本文中簡要概述的理論將為這一艱巨的任務提供基礎。
致謝 這項工作的一部分是由ARC和DFG(#Ja379 / 9-1)支持的,而BS是在澳大利亞國立大學和GMD FIRST期間完成的。 AS由Deutsche Forschungsgemeinschaft(Sm 62 / 1-1)資助。 感謝S.Ben David,C。Bishop,C。Schnörr和M. Tipping的有益討論。