在機器學習(Machine learning)領域。主要有三類不同的學習方法:
監督學習(Supervised learning)、
非監督學習(Unsupervised learning)、
半監督學習(Semi-supervised learning),
監督學習:通過已有的一部分輸入數據與輸出數據之間的相應關系。生成一個函數,將輸入映射到合適的輸出,比如分類。
非監督學習:直接對輸入數據集進行建模,比如聚類。
半監督學習:綜合利用有類標的數據和沒有類標的數據,來生成合適的分類函數。
一、監督學習
1、監督式學習(Supervised learning),是一個機器學習中的方法。能夠由訓練資料中學到或建立一個模式( learning model)。並依此模式猜測新的實例。
訓練資料是由輸入物件(一般是向量)和預期輸出所組成。函數的輸出能夠是一個連續的值(稱為回歸分析)。或是預測一個分類標簽(稱作分類)。
2、一個監督式學習者的任務在觀察完一些訓練范例(輸入和預期輸出)后,去預測這個函數對不論什么可能出現的輸入的值的輸出。要達到此目的。學習者必須以"合理"(見歸納偏向)的方式從現有的資料中一般化到非觀察到的情況。
在人類和動物感知中。則通常被稱為概念學習(concept learning)。
3、監督式學習有兩種形態的模型。
最一般的。監督式學習產生一個全域模型,會將輸入物件相應到預期輸出。而還有一種,則是將這樣的相應實作在一個區域模型。(如案例推論及近期鄰居法)。為了解決一個給定的監督式學習的問題(手寫辨識),必須考慮下面步驟:
1)決定訓練資料的范例的形態。
在做其他事前,project師應決定要使用哪種資料為范例。譬如,可能是一個手寫字符,或一整個手寫的詞匯。或一行手寫文字。
2)搜集訓練資料。這資料需要具有真實世界的特征。所以。能夠由人類專家或(機器或傳感器的)測量中得到輸入物件和其相相應輸出。
3)決定學習函數的輸入特征的表示法。
學習函數的精確度與輸入的物件怎樣表示是有非常大的關聯度。傳統上,輸入的物件會被轉成一個特征向量。包括了很多關於描寫敘述物件的特征。由於維數災難的關系。特征的個數不宜太多,但也要足夠大。才干准確的預測輸出。
4)決定要學習的函數和其相應的學習算法所使用的數據結構。譬如。project師可能選擇人工神經網絡和決策樹。
5)完畢設計。project師接着在搜集到的資料上跑學習算法。能夠借由將資料跑在資料的子集(稱為驗證集)或交叉驗證(cross-validation)上來調整學習算法的參數。參數調整后,算法能夠執行在不同於訓練集的測試集上
另外對於監督式學習所使用的詞匯則是分類。現著有著各式的分類器。各自都有強項或弱項。分類器的表現非常大程度上地跟要被分類的資料特性有關。
並沒有某一單一分類器能夠在全部給定的問題上都表現最好,這被稱為‘天下沒有白吃的午餐理論’。
各式的經驗法則被用來比較分類器的表現及尋找會決定分類器表現的資料特性。決定適合某一問題的分類器仍舊是一項藝術,而非科學。
眼下最廣泛被使用的分類器有人工神經網絡、支持向量機、近期鄰居法、高斯混合模型、朴素貝葉斯方法、決策樹和徑向基函數分類。
二、無監督式學習
1、無監督式學習(Unsupervised Learning )是人工智能網絡的一種算法(algorithm)。其目的是去對原始資料進行分類,以便了解資料內部結構。有別於監督式學習網絡,無監督式學習網絡在學習時並不知道其分類結果是否正確,亦即沒有受到監督式增強(告訴它何種學習是正確的)。其特點是僅對此種網絡提供輸入范例。而它會自己主動從這些范例中找出其潛在類別規則。當學習完成並經測試后,也能夠將之應用到新的案例上。
2、無監督學習里典型的樣例就是聚類了。聚類的目的在於把相似的東西聚在一起,而我們並不關心這一類是什么。因此,一個聚類算法通常僅僅須要知道怎樣計算相似度就能夠開始工作了。
三、半監督學習
1、半監督學習的基本思想是利用數據分布上的模型如果, 建立學習器對未標簽樣本進行標簽。
形式化描寫敘述為:
給定一個來自某未知分布的樣本集S=L∪U, 當中L 是已標簽樣本集L={(x1,y1),(x2,y2), … ,(x |L|,y|L|)}, U是一個未標簽樣本集U={x’1,x’2,…,x’|U|},希望得到函數f:X → Y能夠准確地對樣本x預測其標簽y,這個函數可能是參數的。如最大似然法;可能是非參數的。如最鄰近法、神經網絡法、支持向量機法等;也可能是非數值的,如決策樹分類。當中, x與x’ 均為d 維向量, yi∈Y 為樣本x i 的標簽, |L| 和|U| 分別為L 和U 的大小, 即所包括的樣本數。半監督學習就是在樣本集S 上尋找最優的學習器。怎樣綜合利用已標簽例子和未標簽例子,是半監督學習須要解決的問題。
2、半監督學習問題從樣本的角度而言是利用少量標注樣本和大量未標注樣本進行機器學習。從概率學習角度可理解為研究怎樣利用訓練樣本的輸入邊緣概率 P( x )和條件輸出概率P ( y | x )的聯系設計具有良好性能的分類器。這樣的聯系的存在是建立在某些如果的基礎上的。即聚類如果(cluster assumption)和流形如果(maniford assumption)。
