1. 機器學習的定義
[Mitchell, 1997]對機器學習給出了一個形式化的定義:假設用P來評估計算機程序在某任務類T上的性能,若一個程序通過利用經驗E在T中任務上獲得了性能改善,則我們就說關於T和P,該程序對E進行了學習。
2. 機器學習的基本概念
- 特征向量(feature vector):特征向量是樣本的特征屬性的集合。
- 標記(label):標記是一個模型要輸出的目標。
- 維數(dimensionality):維數代表數據特征向量的維度。
- 樣本空間(sample space):樣本空間代表某個問題的所有可能性的集合。
- 訓練樣本(training sample):訓練樣本是一條用來訓練的數據,包括一些用來輸入的特征向量和一個輸出的標記。
- 訓練集(training set):訓練集是一個包含多條訓練樣本的集合。
- 測試樣本(testing sample):測試樣本和訓練樣本類似,不過測試樣本是用來測試用的。
- 測試集(testing set):測試集是一個包含多條測試樣本的集合。
- 訓練(training):訓練是通過訓練數據,模型進行學習的過程。
- 測試(testing):測試是用來評判模型好壞的過程。
- 預測(prediction):預測是用來使用模型對未見過的數據進行分類或回歸的過程。
- 監督學習(supervised learning):監督學習是帶有標記的問題。
- 無監督學習(unsupervised learning):無監督學習是不帶有標記的問題。
- 分類(classification):標簽值只有有限個類別的問題。
- 回歸(regression):標簽值有無限個值的問題。
- 分布(distribution):所有的樣本都是服從自己的一種未知分布,我們的任務是采樣的時候盡量讓訓練樣本分布和未知分布相同,這樣訓練出來的模型才會有比較好的泛化能力。
- 獨立同分布(iid,independent and identically distributed):指隨機過程中,任何時刻的取值都為隨機變量,如果這些隨機變量服從同一分布,並且互相獨立,那么這些隨機變量是獨立同分布
3. 基本原則
- 奧卡姆剃刀(Occam’s Razor):若有多個假設與觀察一致,則選擇最簡單的一個。
- 沒有免費的午餐(No Free Lunch Theorem, NFL):沒有一種算法比隨機胡猜的效果好。
- NFL定理意義在於, 脫離具體問題,空范的談論什么算法更好,沒有意義!必須針對具體的學習問題,探討算法的相對優劣。
學習算法的歸納偏好是否和問題相匹配,往往起到決定性的作用。