機器學習的思路:利用一些訓練數據,使機器能夠總結出一些規律,然后用這些規律來分析未知數據。
舉個生活的例子:
Q:為什么高考前需要大量的刷題??請從深度學習解答一下。
高考為例,高考的題目我們沒有做過,但是高中三年我們做過很多很多題目,由此學會了解題方法,因此考場上面對陌生問題也可以算出答案。
申明:非原創,轉載自《有監督學習、無監督學習、分類、聚類、回歸等概念》
如有侵權,請聯系刪除。
這篇是很久之前寫的了.. 后來才開始上 Andrew Ng 老師的 MOOC,發現其實老師講得很好了,建議有時間看看他的《Machina Learning》,只看第一節課就可以很了解這些概念了。
主要內容
- 有監督學習、無監督學習、分類、聚類、回歸等概念
有監督學習、無監督學習、分類、聚類、回歸等概念
這里舉一個給書本分類的例子。部分參考 什么是無監督學習? - 王豐的回答 - 知乎 。
-
特征(feature)
數據的特征。
書的內容。
-
標簽(label)
數據的標簽。
書屬於的類別,例如“計算機”“圖形學”“英文書”“教材”等。
-
學習(learning)
將很多數據丟給計算機分析,以此來訓練該計算機,培養計算機給數據分類的能力。換句話說,學習指的就是找到特征與標簽的映射(mapping)關系。這樣當有特征而無標簽的未知數據輸入時,我們就可以通過已有的關系得到未知數據標簽。
把很多書交給一個學生,培養他給書本分類的能力。
-
有監督學習(supervised learning)
不僅把訓練數據丟給計算機,而且還把分類的結果(數據具有的標簽)也一並丟給計算機分析。
由於計算機在學習的過程中不僅有訓練數據,而且有訓練結果(標簽),因此訓練的效果通常不錯。訓練結束之后進行測試不僅把書給學生進行訓練給書本分類的能力,而且把分類的結果(哪本書屬於哪些類別)也給了學生做標准參考。
計算機進行學習之后,再丟給它新的未知的數據,它也能計算出該數據導致各種結果的概率,給你一個最接近正確的結果。
-
無監督學習(unsupervised learning)
只給計算機訓練數據,不給結果(標簽),因此計算機無法准確地知道哪些數據具有哪些標簽,只能憑借強大的計算能力分析數據的特征,從而得到一定的成果,通常是得到一些集合,集合內的數據在某些特征上相同或相似。
只給學生進行未分類的書本進行訓練,不給標准參考,學生只能自己分析哪些書比較像,根據相同與相似點列出清單,說明哪些書比較可能是同一類別的。
-
半監督學習(semi-supervised learning)
給計算機大量訓練數據與少量的分類結果(具有同一標簽的集合)。
給學生很多未分類的書本與少量的清單,清單上說明哪些書屬於同一類別。
-
聚類(clustering)
無監督學習的結果。聚類的結果將產生一組集合,集合中的對象與同集合中的對象彼此相似,與其他集合中的對象相異。
沒有標准參考的學生給書本分的類別,表示自己認為這些書可能是同一類別的(具體什么類別不知道)。
-
分類(classification)
有監督學習的兩大應用之一,產生離散的結果。
例如向模型輸入人的各種數據的訓練樣本,產生“輸入一個人的數據,判斷是否患有癌症”的結果,結果必定是離散的,只有“是”或“否”。
-
回歸(regression)
有監督學習的兩大應用之一,產生連續的結果。
例如向模型輸入人的各種數據的訓練樣本,產生“輸入一個人的數據,判斷此人20年后今后的經濟能力”的結果,結果是連續的,往往得到一條回歸曲線。當輸入自變量不同時,輸出的因變量非離散分布。
看不懂可以再看看下面這個例子:)