摘自范明等譯的(原著Ethem Alpaydin)《機器學習導論》第一章,參雜部分個人見解,不對之處歡迎指點
學習機器學習,應首先知道它在實際生活中的應用具體有哪些,這樣有利於進一步的原理學習。
1 學習關聯性
購物籃分析:即挖掘商品間的關聯性,購買了商品X的用戶有多大的可能性會購買商品Y,其中用戶可進一步增加限制條件,如性別、年齡等
WEB鏈接:可以預估用戶可能點擊的鏈接,預先下載好,提高存取速度
2 分類(監督學習)
信貸:根據客戶信息,如收入、存款等對客戶的申請計算風險,決定接受或拒絕該項申請。該項也可以看做學習關聯性,即計算客戶能償還該貸款的可能性有多大
模式識別:光學字符識別,如手寫體字符識別;人臉識別;醫學診斷;語音識別
知識抽取:發現規則,如爭取信貸中低風險的客戶
離群點檢測:發現不遵守規則的例外實例,如詐騙
3 回歸(監督學習)
預測二手車價格:輸出是車的價格,是不可數的數據,而不是某幾個可數的類別,這類問題視為回歸。輸入信息可以為品牌、車齡等
機器人導航:如自動汽車導航,輸入汽車上的傳感器(如視頻相機,GPS等)數據,輸出車輪轉動角度
烘焙咖啡:輸入溫度、咖啡豆等信息,測試消費者的滿意度,從而確定咖啡的品質
4 非監督學習
監督學習中,可以提供輸出的正確值,而非監督學習之有輸入數據,目標是發現輸入數據的規律,這在統計學中成為密度估計,密度估計方法之一便是:聚類
聚類應用:
-
- 將公司相似的客戶分派到相同的分組,建立客戶的自然分組,從而對不同分組客戶提供特定服務,或者可以發現“離群點”,開拓新市場
- 圖像壓縮:會丟失圖像細節,但贏得存儲和傳送圖像空間
- 生物信息:序列對比,聚類可以學習結構域,即蛋白質中反復出現的氨基酸序列,若將氨基酸類比為字母,則結構域是單詞,蛋白質是句子,學習結構域就是挖掘句子中頻繁出現的一串字母
5 增強學習
國際象棋:規則少,但每局包含大量移動,每種狀態又都有大量可行的移動,即單個移動並不重要,只有能戰勝對手的移動序列中的每一個移動才是好的
機器人導航和足球機器人都類似國際象棋,這類問題還包含不完整和不可靠信息,依賴設備能否輸出完整的信息,所以機器人總是處於部分可觀測狀態,這種不確定性因素也因考慮在內