機器學習分為四大塊,分別是classification (分類),regression (回歸), clustering (聚類), dimensionality reduction (降維)。
-
聚類(clustering)
無監督學習的結果。聚類的結果將產生一組集合,集合中的對象與同集合中的對象彼此相似,與其他集合中的對象相異。
沒有標准參考的學生給書本分的類別,表示自己認為這些書可能是同一類別的(具體什么類別不知道,沒有標簽和目標,即不是判斷書的好壞(目標,標簽),只能憑借特征而分類)。
-
分類(classification)
有監督學習的兩大應用之一,產生離散的結果。
例如向模型輸入人的各種數據的訓練樣本,產生“輸入一個人的數據,判斷是否患有癌症”的結果,結果必定是離散的,只有“是”或“否”。(即有目標和標簽,能判斷目標特征是屬於哪一個類型)
-
回歸(regression)
有監督學習的兩大應用之一,產生連續的結果。
例如向模型輸入人的各種數據的訓練樣本,產生“輸入一個人的數據,判斷此人20年后今后的經濟能力”的結果,結果是連續的,往往得到一條回歸曲線。當輸入自變量不同時,輸出的因變量非離散分布(不僅僅是一條線性直線,多項曲線也是回歸曲線)。
-
1,給定一個樣本特征 , 我們希望預測其對應的屬性值 , 如果 是離散的, 那么這就是一個分類問題,反之,如果 是連續的實數, 這就是一個回歸問題。
2,如果給定一組樣本特征 , 我們沒有對應的屬性值 , 而是想發掘這組樣本在 二維空間的分布, 比如分析哪些樣本靠的更近,哪些樣本之間離得很遠, 這就是屬於聚類問題。
3,如果我們想用維數更低的子空間來表示原來高維的特征空間, 那么這就是降維問題。
