**什么是人工智能、機器學習與深度學習? **
人工智能的簡潔定義如下:努力將通常由人類完成的智力任務自動化。
機器學習指自我學習執行特定任務。他和深度學習的核心問題都在於有意義地變換數據。
深度學習是機器學習的一個分支領域 : 它是從數據中學習表示的一種新方法,強調從連續的層(layer)中進行學習。![]()
作為入門學習者,經常搞混一些概念和層級,在本篇文章中將梳理一下這些層級關系,簡述各個算法的大概內容,建立起框架性的理解。
下面我將從機器學習的方法和機器學習算法兩方面開始。
機器學習問題的四個分支

- 監督學習
監督學習是目前最常見的機器學習類型。給定一組樣本( 通常由人工標注,有一個明確的標識或結果 ),它可以學會將輸入數據映射到已知目標。近年來廣受關注的深度學習應用幾乎都屬於監督學習,比如字符識別、語音識別、 圖像分類和語言翻譯。
監督學習主要包括分類和回歸,分類問題也分為多標簽多分類、單標簽單分類等。
- 無監督學習
無監督學習是指在沒有目標的情況下尋找輸入數據的有趣變換,無監督學習主要包括聚類、降維。
- 自監督學習
自監督學習是監督學習的一個特例,它與眾不同,值得單獨歸為一類。自監督學習是沒有人工標注的標簽的監督學習,你可以將它看作沒有人類參與的監督學習。標簽從輸入數據中生成的。
- 強化學習
在強化學習下,輸入數據作為對模型的反饋,模型對此立刻作出優化調整。
機器學習算法分類
機器學習的范圍非常龐大,算法多而雜,有些算法很難明確歸類到某一類。而對於有些分類來說,同一分類的算法可以針對不同類型的問題。
接下來將敘述這些算法的大概思路。
-
核方法
核方法是一組分類算法,其中最有名的就是支持向量機SVM(Support Vector Machine)
SVM 的目標是通過把輸入數據映射到一個高階的向量空間,在新的表示空間中找到良好的決策超平面,來解決分類問題。
但是,SVM 很難擴展到大型數據集,計算量大,效率會很低;其次,需要找合適的核函數。
-
決策樹、隨機森林與梯度提升機
這三種算法具有相似的性質,根據數據的屬性采用樹狀結構建立決策模型。
梯度提升機得到的模型與隨機森林具有相似的性質,但在絕大多數情況下效果都比隨機森林要好,因為運用了梯度提升方法。和深度學習一樣,它也是 Kaggle 競賽中最常用的技術之一。
-
邏輯回歸 (logistic regression)
logistic 回歸 (logistic regression,簡稱 logreg),它有時被認為是 現代機器學習的“hello world”。logreg 是一種分類算法,而不是回歸算法。
-
貝葉斯算法
貝葉斯算法是基於貝葉斯定理的一類算法,主要用來解決分類和回歸問題。貝葉斯算法是基於貝葉斯定理的一類算法,主要用來解決分類和回歸問題。常見算法包括:朴素貝葉斯算法
-
KNN(K Nearest Neighbor) K近鄰
K-近鄰是一種分類算法,其思路是:如果一個樣本在特征空間中的k個最相似 ( 即特征空間中最鄰近 ) 的樣本中的大多數屬於某一個類別,則該樣本也屬於這個類別。
-
神經網絡
神經網絡是機器學習的一個龐大的分支,有幾百種不同的算法。(其中深度學習就是其中的一類算法)
他起源於上世紀,當時叫感知機(perceptron),擁有輸入層、輸出層和一個隱含層。隨着數學的發展,發明了多層感知機,進入20世紀后,隱含層不斷增多,神經網絡真正意義上有了“深度”,由此揭開了深度學習的熱潮。然后出現了CNN、RNN、LSTM等結構。通常將深度學習划分為監督學習,但實際上無監督學習也可以使用深度學習。
-
聚類算法
聚類算法是將一系列對象分組的任務。所有的聚類算法都試圖找到數據的內在結構,以便按照最大的共同點將數據進行歸類,使相同組(集群)中的對象之間比其他組的對象更相似。
-
降維算法
降低維度算法將原高維空間中的數據點映射到低維度的空間中。以非監督學習的方式試圖利用較少的信息來歸納或者解釋數據。