###機器學習的基礎概念
機器學習時一門研究計算機怎樣模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的性能。它是一門多領域交叉學科,涉及概率論、統計學、逼近論、凸分析、算法復雜度理論等多門學科。
機器學習主要使用的學習方法是歸納,而不是演繹。
機器學習更多的使用歸納法,這也決定了它的結論並不是一種必然性推論,一般情況下我們可以通過一些方法提高機器學習的可靠性。
機器學習是一種讓計算機利用數據而不是指令來進行各種工作的方法。“統計”思想將在你學習“機器學習”相關理念時無時無刻不伴隨,相關而不是因果的概念是支撐機器學習工作的核心概念。
###機器學習的結構
從機器學習的定義出發,我們可以把機器學習分為兩個部分,硬件部分——計算機,軟件部分——學習系統。
這里我們可以把計算機類比為人腦的物質實體,學習系統類比為人的思維系統(學習是人的一種思維系統)。在當前社會的語境中,我們常說的機器學習通常指的是軟件部分,即學習系統。
一個學習系統3個主要部分:環境信息,知識庫和學習執行。
環境向系統的學習部分提供某些信息,學習部分利用這些信息修改知識庫,以增進系統執行部分完成任務的效能,執行部分根據知識庫完成任務,同時把獲得的信息反饋給學習部分,進一步強化學習系統的能力。
對一個學習體統而言,質量高的環境信息(數據源)是高效機器學習系統的重要前提,知識庫我們可以理解為各種各樣的算法,它負責指導對數據進行處理,同時在學習過程中,有3個特性比較重要學習的復雜度,反饋改進能力及可理解性。
####學習系統的重要部件 在機器學習中,有幾個重要的組成部分:模型,參數 和 目標函數。
模型:通常是針對某一類問題的解題步驟,或者說針對某一類問題的算法。
區別概念:算法——算法(Algorithm)是指解題方案的准確而完整的描述,是一系列解決問題的清晰指令,算法代表着用系統的方法描述解決問題的策略機制。也就是說,能夠對一定規范的輸入,在有限時間內獲得所要求的輸出。
概括起來,模型側重於框架,算法側重於執行過程。
參數:是模型或算法中的輸入及輸出部分,比如簡單的線性回歸,給定x去輸出y,其中x,y就是模型的參數。
目標函數:主要是解決模型如何選擇最優參數的問題。
一般情況下,目標函數包含兩個部分:
誤差函數:告訴我們模型的擬合程度,常見的誤差函數有平方誤差,logistic誤差函數等,
正則化項:對復雜模型進行懲罰,防止過擬合,常見的正則化項有L1正則化及L2正則化
此外,還有另外兩個重要概念——偏差和方差。 在現實中,我們能獲取到的數據經常是有限的,所以我們用數據進行建模的結果會與真實世界的情況存在出入,這種出入的大小描述就是偏差。另外,在有限的數據中由於數據的隨機性會影響模型整體的穩定性,這種穩定性的大小描述就是方差。
目標函數中誤差函數鼓勵我們的模型盡量去擬合訓練數據,這樣相對來說最后的模型會有比較少的偏差。而正則化項則鼓勵更加簡單的模型。因為當模型簡單之后,有限數據擬合出來結果的隨機性比較小,不容易過擬合,使得最后模型的預測更加穩定。
####機器學習重要過程 在機器學習建模過程中,有個重要的步驟就是算法優化。
算法優化其實就是在優化目標函數,所以當我們在使用算法過程中,要着重理解解決問題算法中的目標函數及它的優化方法。
###機器學習的應用
到目前為止機器學習的應用已經十分廣泛,其中包括:數據挖掘、計算機視覺、自然語言處理、語音識別等。
####數據挖掘
數據挖掘(Data mining):一般是指從大量的數據中通過算法搜索隱藏於其中信息的過程。
數據挖掘過程中常用的一些分析方法包括:分類,聚類,估計,預測等
經典的數據挖掘算法包括:
- C4.5:決策樹的其中一種
- K-means算法:是一種聚類算法。
- SVM:支持向量機,廣泛運用於統計分類以及回歸分析中
- Apriori :關聯規則,是一種布爾關聯規則頻繁項集的算法。
- EM:最大期望值法。
- pagerank:網頁排名算法。
- Adaboost:是一種迭代算法,同時也是集合分類器。
- KNN:臨近分類算法。
- Naive Bayes:朴素貝葉斯(Naive Bayes)
- Cart:分類回歸樹,決策樹的一種
####計算機視覺
計算機視覺是研究如何使使機器進行圖形識別的科學,主要包括兩個部分圖形處理和圖形理解兩個部分,其中大量涉及機器學習的內容。這個領域應用前景非常火熱,同時也是研究的熱門方向。隨着機器學習的新領域深度學習的發展,大大促進了計算機圖像識別的效果,因此未來計算機視覺界的發展前景不可估量。
####自然語言處理
自然語言處理研究的是能實現人與計算機之間用自然語言進行有效溝通的科學。實現人機間自然語言通信意味着要使計算機既能理解自然語言文本的意義,也能以自然語言文本來表達給定的意圖、思想等。自然語言處理大體包括了自然語言理解和自然語言生成兩個部分,其中也大量涉及機器學習,同時自然語言也是人工智能的熱門方向。
####語音識別
語音識別研究的是人與機器之間進行語音溝通學科,其中涉及較多的自然語言處理技術,在此基礎上還涉及到信號處理,模式識別以及信息論等,而機器學習在其中也扮演了重要的決策,同時也是機器學習的熱門方向之一。
###機器學習的歷史
大體上可分為4個時期:
第一階段是在20世紀50年代中葉到60年代中葉,屬於熱烈時期。
第二階段是在20世紀60年代中葉至70年代中葉,被稱為機器學習的冷靜時期。
第三階段是從20世紀70年代中葉至80年代中葉,稱為復興時期。
機器學習的最新階段始於1986年。
詳細內容可參考:http://blog.csdn.net/u012328159/article/details/52462433
###機器學習的發展趨勢
從2016年的AlphaGo打敗圍棋世界冠軍李世石開始,機器學習的發展速度打破了人們的原有認知,原來大家普遍認為,機器要在圍棋上戰勝人類可能還需要20年,可就在2016年它就成為了歷史。也因此AlphaGo背后的深度學習技術也被廣為人知。
可以知道的是技術的演進速度是在加速進行的,我們要做的是參與其中或拭目以待。