監督式學習:全部使用含有標簽的數據來訓練分類器。
無監督式學習:具有數據集但無標簽(即聚類)。
半監督學習:使用大量含有標簽的數據和少量不含標簽的數據進行訓練分類或者聚類。
半監督學習:純半監督學習和直推式學習
純半監督學習和直推式學習的區別:
半監督學習在學習使並不知道最終的測試數據是什么,如下圖:
直推學習:假設未標記的數據就是最終要用來測試的數據,學習的目的就是在這些數據上取得最佳泛化能力。
半監督學習的兩個假設
聚類假設:假設數據存在簇結構,同一個簇的樣本屬於同一個類別。
流行假設:假設數據分布在一個流行結構上,鄰近的樣本擁有相似的輸出值。
兩個假設的本質:相似的樣本擁有相似的輸出。
半監督學習的分類
基於生成模型的半監督學習方法:
基於協同訓練的半監督分類方法:
基於低密度分離的半監督分類方法:
基於圖的半監督學習方法:
最小分割Mincut、高斯隨機場和調和函數CRF、譜圖分割SGP、局部和全局一致性LGC、流形正則化MR、基於線性鄰域的標記傳播LNP等。
局部與全局一致性LGC算法:
1、來源:D.Zhou,O.Bousquet,T.N.Lal,J.Westort,and B.Sch6ll【op£Learning with local and global consistency.Advances in Neural Information Processing System 16,2004.
2、基本思想:讓每個樣本的標記信息迭代地向其鄰近樣本傳播,直至到全局穩定狀態。
3、目標函數:LGC的目標函數的特點是:(1)可以直接處理多分類問題;(2)正則化算子使用了歸一化的拉普拉斯算子L=D-1/2 LD-1/2=I-D-1/2 WD-1/2來代替圖拉普拉斯算子L=D-W;(3)損失函數的權重入為有限值,即采用軟約束,從而使得算法對於錯誤的有標記數據有一定的容錯能力。LGC的目標函數為:
其中,F為調和函數,其在標注數據點上取值為其標識值,其在無標注數據點上的值為0;,Y為標簽矩陣,W為相似度權重矩陣,D為度矩陣(對角矩陣),di=∑Wi ,為矩陣W的第i行元素之和。
前部分為正則化項,后者為損失函數。
損失函數:標簽數據的標識和訓練結果的標簽的誤差。
正則化項:相鄰點Wij的值越大,則fi和fj的值越相近。
4、實現步驟:(詳細推導見西瓜書)
①構造鄰接矩陣W,當i≠j時,高斯核函數Wij=exp(-(xi-xj)2/2 2, Wii=0
②計算矩陣S= D-1/2 WD-1/2,Dii=∑j wij ,
③迭代計算 F(t+1)=αSF(t)+(1-α)Y, α∈(0,1), Y為標簽矩陣,直至收斂。
幾種經典的圖的構建
1、 全連接圖
在全連接圖中,所有結點之間都是有邊連接的,而其邊的權值通常是由高斯核函數計算得到的。
2、 近鄰圖
兩種近鄰圖:k近鄰和 近鄰
在k近鄰圖中,每一個樣本點與其最近的k個鄰居點相連接,邊的權值同樣由高斯核函數計算得到。
在 近鄰圖中,數據點之間的連接發生在半徑為 的近鄰范圍內,即若結點i和j之間的距離d(i,j)< ,則結點i,j之間有邊連接。
3、 局部自適應圖
4、 L1-圖