監督學習:
監督學習是目前最主流的學習方式,其特點是:訓練過程中樣本都是有標簽的。
常見的監督學習任務有:分類、回歸、序列標注等。
學習步驟大致可以分為三步(以SVM為例):
1) 在有監督數據上訓練,學的一個判別器W;
2)然后在測試集(故意把標簽P抹去)上,用上一步學的判別器W進行分類任務,得到一個預測標簽PY
3) PY和P的差距,就是衡量算法好壞的標准。
無監督學習:
特點是:訓練過程中沒有樣本標簽。
常見的任務:聚類、降維等
常用算法:k-means、譜聚類等
步驟:
1)直接在全部數據上訓練,得到預測標簽PY
2) 之后將PY和真實標簽Y進行對比,用的是經典的匈牙利算法。
注意:這里的PY和Y並不是一一對應關系,而是看“類內樣本”對應關系,這也是聚類指標和分類指標不同之處。
舉個例子:樣本A和樣本B真實標簽是“1”
經過聚類算法處理后,得到了預測標簽。若A、B標簽相同,則代表這兩個樣本分對了(標簽可能是“1”,也可能是“2”、“3”、“4”、、、)
若聚類后,A和B的標簽不同,則代表這兩個樣本分錯了(分成不同類了)。
半監督學習:
特點是:訓練過程中,用的是全部的樣本數據(和監督的區別,監督是認為的把數據划分為有標簽和無標簽),但是這些樣本中只有一小部分有標簽,大部分是沒有標簽的。
其原理是通過標簽傳播的方式,利用已有標簽的樣本信息去預測未知標簽樣本的類別信息。
典型方法:S3VM、S4VM、CS4VM、TSVM;