機器學習基本概念


1. 機器學習的定義

[Mitchell, 1997]對機器學習給出了一個形式化的定義:假設用P來評估計算機程序在某任務類T上的性能,若一個程序通過利用經驗E在T中任務上獲得了性能改善,則我們就說關於T和P,該程序對E進行了學習。

2. 機器學習的基本概念

  1. 特征向量(feature vector):特征向量是樣本的特征屬性的集合。
  2. 標記(label):標記是一個模型要輸出的目標。
  3. 維數(dimensionality):維數代表數據特征向量的維度。
  4. 樣本空間(sample space):樣本空間代表某個問題的所有可能性的集合。
  5. 訓練樣本(training sample):訓練樣本是一條用來訓練的數據,包括一些用來輸入的特征向量和一個輸出的標記
  6. 訓練集(training set):訓練集是一個包含多條訓練樣本的集合。
  7. 測試樣本(testing sample):測試樣本和訓練樣本類似,不過測試樣本是用來測試用的。
  8. 測試集(testing set):測試集是一個包含多條測試樣本的集合。
  9. 訓練(training):訓練是通過訓練數據,模型進行學習的過程。
  10. 測試(testing):測試是用來評判模型好壞的過程。
  11. 預測(prediction):預測是用來使用模型對未見過的數據進行分類或回歸的過程。
  12. 監督學習(supervised learning):監督學習是帶有標記的問題。
  13. 無監督學習(unsupervised learning):無監督學習是不帶有標記的問題。
  14. 分類(classification):標簽值只有有限個類別的問題。
  15. 回歸(regression):標簽值有無限個值的問題。
  16. 分布(distribution):所有的樣本都是服從自己的一種未知分布,我們的任務是采樣的時候盡量讓訓練樣本分布和未知分布相同,這樣訓練出來的模型才會有比較好的泛化能力。
  17. 獨立同分布(iid,independent and identically distributed):指隨機過程中,任何時刻的取值都為隨機變量,如果這些隨機變量服從同一分布,並且互相獨立,那么這些隨機變量是獨立同分布

3. 基本原則

  • 奧卡姆剃刀(Occam’s Razor):若有多個假設與觀察一致,則選擇最簡單的一個。
  • 沒有免費的午餐(No Free Lunch Theorem, NFL):沒有一種算法比隨機胡猜的效果好。
  • NFL定理意義在於, 脫離具體問題,空范的談論什么算法更好,沒有意義!必須針對具體的學習問題,探討算法的相對優劣。
    學習算法的歸納偏好是否和問題相匹配,往往起到決定性的作用。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM