[機器學習] 1、《機器學習系統設計》學后總結


 

 

《機器學習系統設計》是一本不錯的機器學習實戰入門的書籍。第一章介紹了用於機器學習的Python相關工具,接下來分別用實戰型例子講解聚類、分類、回歸、模式識別、降維等機器學習的主要的幾種方法。

 

機器學習就是教機器自己來完成任務,機器學習的目標就是通過若干示例讓機器學會完成任務。

 

像其他工程一樣,設計一個機器學習系統工作一般花在一些極其平凡的任務上

(1)讀取和清洗數據;

(2)探索和理解輸入數據;

(3)分析如何最好地將數據呈現給學習算法;

(4)選擇正確的學習算法和模型;

(5)正確地評估性能。

 

分類是一種監督性學習(需要樣本進行訓練),書中第二章從最簡單的肉眼觀察方法,講到K鄰近算法和分類樹方法。

聚類是一種無監督學習,書中第三章一種比較典型的聚類方法——K均值(質心移動法)。

主題模型不同於聚類,而是把對象放入幾個組(叫做主題)中。

分類、聚類和主題模型是主流的機器學習模型,是機器學習的基礎知識,只有融會貫通這些基礎知識才能在遇到更有挑戰性地問題時能見招拆招。

 

設計機器學習系統免不了要對系統進行提升,我本基本有如下選擇:

(1)增加更多數據:也許我們沒有為學習算法提供足夠數據,因此增加更多的訓練數據即可。

(2)考慮模型復雜度:也許模型還不夠復雜,或者已經太復雜了。例如在K鄰近算法中 ,我們可以降低K值,使得較少的近鄰被考慮進去,從而更好地預測不平滑數據。我們也可以提高K值,來得到相反的結果。

(3)修改特征空間:也許我們的特征集合並不好。例如,我們可以改變當前特征的范圍,或者設計新的特征。又或者,如果一些特征和另外一些特征是別名關系,可以刪除一些特征。

(4)改變模型:也許XX算法並不適合我們的問題,無論我們讓模型變得有多復雜,無論特征空間會邊得多負雜,它永遠也得不到良好的預測結果。

 

邏輯回歸是一種分類方法,當他處理基於文本的分類任務時,功能非常強大。

朴素貝葉斯是一種分類方法,也許是最優美的有實際效用的機器學習算法之一了,盡管名字叫做朴素,但是當你看到其分類的實際效果時,你會發現並不是那么朴素。他對無關特征的處理能力十分強悍,無關特征會被自然地過濾掉。用它進行機器學習和預測的時候,速度都非常快,而且並不需要很大的存儲空間。(之所以稱作朴素,是因為有一個能讓貝葉斯方法最優工作的假設:所有特征需要相互獨立。而實際應用中,這種情況很少出現。盡管如此,在實踐中,即使在獨立假設並不成立的情況下,他仍然能達到很高的正確率。

 

關回歸預測模型中首先介紹a kind old method——普通最小二乘法回歸(Ordinary Least Squares,OLS)。有時候為了避免過擬合用到了嶺回歸、Lasson法和彈性網(他們是最前沿的回歸方法)。

 

Apriori算法在形式上會將一些集合當作輸入,並返回這些集合中出現頻率非常高的子集。Apriori的目標就是尋找一個高支持度的項集。其解決的經典問題是購物籃問題(挖掘購買A的人可能還會購買什么)。當然,購物籃問題也可以嘗試用基於概率的關聯規則挖掘方法。

 

涉及到語音、音樂等樣本的機器學習系統則略顯不同,因為他們的描述值並不是那么明顯(比如花朵分類問題中,對特征的描述花瓣數量、花朵顏色等都比較明確),而對於一段長3分鍾的MP3歌曲,顯然我們不能用MP3數據的每一bit來表示。書中介紹了一種基於音樂頻率的分類方法(FFT)——一種可以從音頻中提取頻率強度的方法(快速傅里葉變換)。但是FFT僅僅是一個方向,卻正確率不高!其實對於音樂分類已經有人遇到同樣的問題,並成功解決了,甚至有一個每年舉辦的會議專門用來解決音樂分類問題。這個組織是由音樂信息檢索國際協會(ISMIR)組織的。很明顯自動音樂體裁分類是音樂信息檢索的一個子領域。在AMGC中一個應用比較多的音樂體裁分類方法就是梅爾倒頻譜系數(MFCC)技術。梅爾倒頻譜(MFC)會對聲音的功率譜進行編碼,它是通過對信號譜的對數進行傅里葉變換得到的。

 

而涉及到圖像、視頻的機器學習系統則又和之前不同,這方面甚至直接獨立出來單獨研究。

 

總結:整本書主要以實戰為主,介紹性地引入機器學習中許多基礎的方法。可以作為機器學習入門導讀類書籍進行閱讀~


@beautifulzzzz
智能硬件、物聯網,熱愛技術,關注產品
博客:http://blog.beautifulzzzz.com
sina:http://weibo.com/beautifulzzzz?is_all=1

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM