SSL按照統計學習理論的角度包括直推(Transductive)SSL和歸納(Inductive)SSL兩類模式。直推SSL只處理樣本空間內給定的訓練數據,利用訓練數據中有類標簽的樣本和無類標簽的樣例進行訓練,預測訓練數據中無類標簽的樣例的類標簽;歸納SSL處理整個樣本空間中所有給定和未知的樣例,同時利用訓練數據中有類標簽的樣本和無類標簽的樣例,以及未知的測試樣例一起進行訓練,不僅預測訓練數據中無類標簽的樣例的類標簽,更主要的是預測未知的測試樣例的類標簽。
從不同的學習場景看,SSL可分為四大類:
1)半監督分類(Semi-Supervised Classification):在無類標簽的樣例的幫助下訓練有類標簽的樣本,獲得比只用有類標簽的樣本訓練得到的分類器性能更優的分類器,彌補有類標簽的樣本不足的缺點,其中類標簽 取有限離散值 ;
具體的有:
自訓練(Self-Training)、直推學習(Transductive Learning)、生成式模型(Generative Model)、基於差異的方法(Disagreement-Based Methods)、生成式方法(Generative Methods)、判別式方法(DiscriminativeMethods)和基於圖的方法(Graph-Based Methods)等,
2)半監督回歸(Semi-Supervised Regression):在無輸出的輸入的幫助下訓練有輸出的輸入,獲得比只用有輸出的輸入訓練得到的回歸器性能更好的回歸器,其中輸出 取連續值 ;
具體的主要的半監督回歸方法有基於差異的方法和基於流形學習的方法。
3)半監督聚類(Semi-Supervised Clustering):在有類標簽的樣本的信息幫助下獲得比只用無類標簽的樣例得到的結果更好的簇,提高聚類方法的精度;
主要的半監督聚類方法有基於距離的方法和大間隔方法。
4)半監督降維(Semi-Supervised Dimensionality Reduction):在有類標簽的樣本的信息幫助下找到高維輸入數據的低維結構,同時保持原始高維數據和成對約束(Pair-Wise Constraints)的結構不變,即在高維空間中滿足正約束(Must-Link Constraints)的樣例在低維空間中相距很近,在高維空間中滿足負約束(Cannot-Link Constraints)的樣例在低維空間中距離很遠。
主要的半監督降維方法有基於類標簽的方法、基於成對約束的方法及其它方法等。 無噪聲干擾的樣本數據是當前大部分半監督學習方法使用的數據,而在實際生活中用到的數據卻大部分不是無干擾的,通常都比較難以得到純樣本數據。上面談論的三個基本假設顯然是有效的,不過過於簡約,這些假設沒能把噪聲干擾下未標記樣本數據分布的不確定性以及它的復雜性充分的考慮全。
