目錄
1.1 歡迎
1.2 機器學習是什么
1.2.1 機器學習定義
1.2.2 機器學習算法
- Supervised learning 監督學習
- Unsupervised learning 無監督學習
- Reinforcement learning 強化學習
- Recommender systems 推薦系統
1.2.3 課程目的
如何在構建機器學習系統時,選擇最好的實踐類型決策、節省時間。
1.3 監督學習
1.3.1 Regression 回歸問題
1.3.2 Classification 分類問題
1.3.3 回歸和分類
1.4 無監督學習
1.4.1 聚類算法 Clustering algorithm
1.2 機器學習是什么
參考視頻: 1 - 2 - What is Machine Learning_ (7 min).mkv
1.2.1 機器學習定義
• Arthur Samuel (1959). Machine Learning: Field of study that gives computers the ability to learn without being explicitly programmed. 機器學習:在進行特定編程的情況下,給予計算機學習能力的領域。
• Tom Mitchell (1998) Well-posed Learning Problem: A computer program is said to learn from experience E with respect to some task T and some performance measure P, if its performance on T, as measured by P, improves with experience E. 卡內基梅隆大學Tom 定義:一個程序被認為能從經驗 E 中學習,解決任務 T,達到性能度量值P, 當且僅當,有了經驗 E 后,經過 P 評判,程序在處理 T 時的性能有所提升。
例題,以垃圾郵件監測為例,解釋Tom 定義中字母的對應:
1.2.2 機器學習算法
1、常用:
Supervised Learning 監督學習:學習數據帶有標簽
Unsupervised Learning 無監督學習:沒有任何的標簽,或者有相同的標簽。已知數據集,不知如何處理,也未告知每個數據點是什么。
(右側的例子,無監督學習將數據划分為兩個集合,也就是聚類clustering algorithm)
2、其他:
Reinforcement learning 強化學習, recommender systems 推薦系統
1.2.3 課程目的
If you actually tried to develop a machine learning system, how to make those best practices type decisions about the way in which you build your system. 如何在構建機器學習系統的時候選擇最好的實踐類型決策,節省時間。
1.3 監督學習
參考視頻: 1- 3- Supervised Learning (12 min).mkv
1.3.1 Regression回歸問題:預測結果是連續的輸出值
在歷史房價數據的基礎上,預測房屋價格。可以使用直線擬合(粉色),也可以使用二次曲線擬合(藍色)。
監督學習:基於已有的正確結果。 回歸問題:預測連續的輸出值
1.3.2 Classification分類問題:預測結果是離散的多個值
下圖是基於兩個特征(兩個維度)進行預測的例子, 右邊是其他可能維度(維度可能有無窮多個)
1.3.3 區分 “分類問題”和“回歸問題”
例題:
1.4 無監督學習
參考視頻: 1 - 4 - Unsupervised Learning (14 min).mkv
1.4.1 聚類算法clustering algorithm 在現實生活中的應用
1、Google News 每天將爬來的網址分為一個個的新聞專題。
2、基因信息分組。
3、組織大型計算機集群。 社交網絡的分析。市場分割。天文數據分析
4、雞尾酒party問題,將混在一起的多個音頻源拆開。
通過這個例子,特別強調了Octave和MATLAB這些軟件的簡潔之處,這個算法的實現在Octave里只需要一行代碼
[W,s,v] = svd((repmat(sum(x.*x,1),size(x,1),1).*x)*x');