一、機器學習的概念
1、什么是學習?
--從人的學習說起
--學習理論;從實踐中總結
--在理論上推導;在實踐中檢驗
--通過各種手段獲取知識或技能的過程
2、機器怎么學習?
--處理某個特定的任務,以大量的“經驗”為基礎
--對任務完成的好壞,給予一定的評判標准
--通過分析經驗數據,任務完成的更好了
3、機器學習的開端
4、機器學習的定義
機器學習 Machine Learning,ML)主要研究計算機系統對於特定任務的性能,逐步進行改善的算法和統計模型。通過輸入海量訓練數據對模型進行訓練,使模型掌握數據所蘊含的潛在規律,進而對新輸入的數據進行准確的分類或預測。是一門多領域交叉學科,涉及概率論、統計學、逼近論、凸優化、算法復雜度理論等多門學科。專門硏究計算機怎樣模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的性能。
5、機器學習的過程
二、機器學習的主要分類
1、機器學習的主要分類
2、無監督學習
無監督學習( Unsupervised Learning)算法采用一組僅包含輸入的數據,通過尋找數據中的內在結構來進行樣本點的分組或聚類。算法從沒有被標記或分類的測試數據中學習。無監督學習算法不是響應反饋,而是要識別數據中的共性特征;對於一個新數據,可以通過判斷其中是否存在這種特征,來做出相應的反無監督學習的核心應用是統計學中的密度估計和聚類分析。
3、無監督學習的應用
4、監督學習
監督學習( Supervised Learning)算法構建了包含輸入和所需輸出的一組數據的數學模型。這些數據稱為訓練數據,由一組訓練樣本組成。監督學習主要包括分類和回歸。當輸出被限制為有限的一組值(離散數值)時使用分類算法;當輸出可以具有范圍內的任何數值(連續數值)時使用回歸算法相似度學習是和回歸和分類都密切相關的一類監督機器學習,它的目標是使用相似性函數從樣本中學習,這個函數可以度量兩個對象之間的相似度或關聯度。它在排名、推薦系統、視覺識別跟蹤、人臉識別等方面有很好的應用場景。
三、監督學習深入介紹
1、監督學習三要素
2、監督學習實現步驟
a、得到一個有限的訓練數據集
b、確定包含所有學習模型的集合
c、確定模型選擇的准則,也就是學習策略
d、實現求解最優模型的算法,也就是學習算法
e、通過學習算法選擇最優模型
f、利用得到的最優模型,對新數據進行預測或分析
3、監督學習過程示例
4、模型評估策略
模型評估
訓練集和測試集
損失函數和經驗風險
訓練誤差和測試誤差
模型選擇
過擬合和欠擬合
正則化和交叉驗證
5、訓練集和測試集
我們將數據輸入到模型中訓練岀了對應模型,但是模型的效果好不好呢?我們需要對模型的好壞進行評估
我們將用來訓練模型的數據稱為訓練集,將用來測試模型好壞的集合稱為測試集。
訓練集:輸入到模型中對模型進行訓練的數據集合。
測試集:模型訓練完成后測試訓練效果的數據集合。
6、損失函數
損失函數用來衡量模型預測誤差的大小。
定義:選取模型f為決策函數,對於給定的輸入參數Ⅹ,f(Ⅹ)為預測結果,Y為真實結果;f(X和Y之間可能會有偏差,我們就用一個損失函數( oss function)來度量預測偏差的程度,記作L(Y,fX)
損失函數是系數的函數
損失函數值越小,模型就越好
7、經驗風險
8、訓練誤差和測試誤差
9、過擬合和欠擬合
10、欠擬合
11、過擬合
12、模型的選擇
13、正則化
14、奧卡姆剃刀
15、交叉驗證
16、分類和回歸
17、分類問題
18、精准率和召回率
簡單總結來說、精准率就是推薦出的列表數目中,正確被推出所占推出列表數目的比例; 召回率就是被推出正確的數目占總共應該被正確推出的比例。
19、回歸問題
四、模型求解算法(學習算法)
1、梯度下降算法
2、牛頓法和擬牛頓法(計算比較復雜,考慮到變化率的變化率,收斂速度更快)