-
根據模型的訓練策略划分:
- 直推式學習(Transductive Semi-supervised Learning)
- 無標記數據就是最終要用來測試的數據,學習的目的就是在這些數據上取得最佳泛化能力。
- 歸納式學習(Inductive Semi-supervised Learning)
- 認為待識別樣本不能是訓練中所用的無標簽數據,不能參與到訓練過程。
- 直推式學習(Transductive Semi-supervised Learning)
這兩者的區別在於:預測樣本是不是在訓練的時候已經見(用)過。通常直推式比歸納式的效果要好,因為歸納式還需要從訓練泛化到測試。
-
根據無標簽數據的使用方法划分:
- 被動學習
- 隨機選取無標簽樣本並打標,側重於學習探索無標注數據中的模型已知部分。
- 主動學習
- 對無標簽數據篩選后打標,相比於被動學習,在獲取相當性能的情況下只需要更少但更有信息量的標注樣本;側重嘗試挖掘未知的富有信息量的數據。
- 被動學習
-
按照模型的訓練方法划分:
-
Self-training methods(自訓練方法)
-
訓練過程:首先要用一個帶有標簽的小數據集訓練分類器;然后使用分類器對未標記的數據進行分類; 之后將最可靠的未標記點與預測標記一起添加到訓練集中, 分類器被重新訓練。 重復此過程,直到程序滿足終止條件為止, 然后在輸出中給出最終的分類器。(自訓練首先將原始標注數據作為訓練集訓練得到初步模型,再用該模型對無標注數據進行推斷,將那些高置信度的預測樣本作為偽真值(Pseudo Ground Truth)加入訓練集,再重復訓練,因此自訓練也可叫做自我學習(Self teaching)或自助法(Bootstrapping)。)
-
存在的問題:錯誤標記的樣本會傳播到下一個迭代中,從而對結果產生很大影響。
-
解決方法:在每次迭代中都需要自訓練程序來找到一個准則(度量)以選擇一組高度可靠的預測 。如果預測的可靠性下降到閾值以下,則嘗試通過“取消學習”未標記的點來避免標簽不正確對分類結果的影響。
-
-
Co-training methods(協同訓練方法)
- 該方法基於視圖充分冗余和條件獨立這兩個假設。首先在有同一標記的樣本的兩個視圖上訓練不同的分類器(比如對於一個電影:有畫面、聲音、字幕三種屬性集,對應的就有三個視圖;對於圖片,可以是兩個角度拍攝出的同一個對象的不同照片),並利用這兩個分類器進行未標記樣本的標簽預測;之后將其中置信值最高的樣本加入到另一個分類器中交替進行訓練(協同訓練),並迭代進行下去。
- 協同訓練可以很好地利用多視圖的“相容互補性”。假設數據擁有兩個充分且條件獨立的視圖(“充分”是指每個視圖都包含足以產生最優學習器的信息,“條件獨立”則是指在給的類別標記條件下兩個視圖相互獨立), 在此情況下,可以用一個簡單的辦法來利用未標記數據:首先在每個視圖上基於有標簽樣本分別訓練出一個分類器,然后讓每個分類器分別去挑選自己“最有把握的”未標記樣本賦予偽標記,並將偽標記樣本提供給另一個分類器作為新增的有標記樣本用於訓練更新…這個“互相學習、共同進步”的過程不斷迭代進行,直到兩個分類器都不再發生變化,或達到預先設定的迭代輪次為止。
- 協同訓練(Co-training)基於三大假設:(1)特征可划分為兩大子集;(2)每個特征子集足夠訓練好的分類器“3)給定類別前提下兩個特征子集條件獨立。協同訓練通過引入無標注的數據來縮小變形空間從而達到提升半監督學習算法性能的目的。
-
Semi-supervised boosting(半監督提升)
- Boosting是一種框架算法,主要是通過對樣本集的操作獲得樣本子集,然后用弱分類算法在樣本子集上訓練生成一系列的基分類器,使用基分類器生成強分類器。
- Semi-supervised on-line boosting for robust tracking
-
Generative methods(生成式方法)
- 生成式方法是一種基於統計學習的方法,它認為訓練樣本和對應的類別標簽是由某個概率分布生成。已知類先驗分布𝑝(𝑦)和類條件分布𝑝(𝑥|𝑦),重復取樣𝑦 ∼ 𝑝(𝑦)和𝑥 ∼ 𝑝(𝑥|𝑦),從這些分布中生成有類標簽的樣本𝐿和無類標簽的樣本𝑈。根據貝葉斯公式,將后驗概率最大的類別分配給無標簽樣本。之后使用帶有標簽的𝐿和𝑈更新概率分布的參數,迭代迭代以上過程。
-
Margin-based methods (基於邊緣距離的方法)
- 一種基於SVM的方法。
-
Graph-basde methods (基於圖的方法)
- 基於圖的半監督學習方法又叫做基於流形學習的半監督學習。主要是根據有標記樣本和無標記樣本間之間的關系,來建立一個相互連接的圖,並假設圖上樣本點平滑。圖中的頂點表示有標記或者無標記的樣本,頂點之間的邊的權值反映了樣本之間的相似程度。之后再根據具體的目標來確定優化問題,並進行求解。
-