機器學習實戰之機器學習主要任務


之前已經看過,李航的統計與學習方法,對於機器學習相關算法的理論有了一定的了解,但是感覺對於實際的代碼編寫還有所欠缺,然后就打算花時間將機器學習實戰這本書好好看一下,順便學習一下python

      估計看本書的讀者大多都會忽略本書的第一章節,但是第一章我也是認真的看了一遍,里面講了機器學習的重要性,機器學習的主要任務,以及比較重要的如何選取合適的機器學習算法,最后總結了機器學習開發應用程序的重要步驟

      下面我就來一一進行總結和整理:
(1)機器學習的重要性

     機器學習的重要性不言而喻,它可以幫助我們解決生活當中的很多問題,比如預測鳥的種類,有時我們不可能在發現一種我們不知道的鳥的種類時,去請教鳥類的專家,這個時候,如果我們根據目前已有的關於鳥種類特征的數據,我們就可以訓練得到相關預測鳥類別的模型,當滿足精度要求后,我們就可以通過輸入相關的特征,從而預測出鳥的類別。因為,我們只是想獲取鳥類的相關信息,而不需要大費周章的去預約一個鳥類相關的專家

     總之,機器學習確確實實給我們的生活帶來很多方便,並且一直在推動社會的發展

(2)機器學習的主要任務

     分類是機器學習的一項主要任務,主要是將實例數據划分到合適的分類中。機器學習的另外一項任務是回歸,主要是預測數值型的數據,比如通過數據值擬合曲線等。

     分類和回歸屬於監督學習,這類算法必須知道預測什么,即目標變量的分類信息

     與監督學習相對應的是無監督學習,此時數據沒有類別信息,也不會給定目標值。在無監督學習中,將數據集合分成由類似的對象組成的多個類的過程稱為"聚類";將尋找描述數據統計值的過程稱之為密度估計

  監督學習的用途  
k近鄰算法     線性回歸
朴素貝葉斯算法      局部加權線性回歸
支持向量機       Ridge回歸
決策樹        lasso最小回歸系數設計

 

   無監督學習的用途
k-均值    最大期望算法
DBSCAN      Parzen窗設計

 

1 使用機器學習算法的目的,想要完成什么任務,比如是預測明天下雨的概率還是對投票者按照興趣分組;
想要選擇合適的算法,必須考慮以下兩個問題:
(3)如何選擇合適的算法

      首先考慮機器學習算法的目的。如果想要預測目標變量的值,則可以選擇監督學習算法,否則可以選擇無監督學習。確定選擇監督學習算法后,需要進一步明確目標變量的類型,如果目標變量是離散型,則可以選擇分類算法;如果是連續型,則需要選擇回歸算法。

      如果不想預測目標變量的值,就選擇無監督學習方法。進一步分析是否需要將數據划分為離散的組。如果需要並且不需要估計數據與每個分組的相似程度,那么可以選擇聚類算法。否則可以選擇密度估計算法。

2 需要分析和收集的數據是什么

     我們需要考慮實際的數據問題,應該充分了解數據,對實際數據了解的越充分,越容易創建符合實際需要的應用程序。

     主要應該了解數據的以下特征:

1)特征值是離散型變量還是連續型變量

2)特征值中是否有缺失的值,何種原因造成

3)數據中是否有異常值

4)某些特征發生的頻率如何

     通過上面對數據的充分了解,可以幫助我們縮小算法的選擇范圍,一般並不存在最好的算法和可以給出最好效果的算法,一般發現最好算法的關鍵環節是反復試錯的迭代過程

(4)開發機器學習應用程序的步驟

1 收集數據:我們可以通過很多方法手機數據,比如制作網絡爬蟲從網站抽取數據,也可以使用公開的數據源

2 准備輸入數據:得到數據之后,還必須確保數據格式符合要求,使用標准的數據格式可以融合算法和數據源,方便匹配操作;此外,還要為機器學習算法准備特定的數據格式,一般某些算法要求目標變量和特征值是字符串變量,而另外一些算法則可能要求是整數類型。

3 分析輸入數據:主要是人工分析得到的數據,確保數據中沒有垃圾數據。

4 訓練算法:將前兩步得到的格式化數據輸入到算法,從中抽取信息

5 測試算法,為了評估算法,必須測試算法工作的效果。對於監督學習,必須已知用於評估算法的目標變量值;對於無監督學習,也必須用其他評測手段來檢驗算法的成功率。如果不滿意算法的輸出結果,不改變算法的前提下,問題常常與數據的收集和准備有關

6 使用算法:將機器學習算法轉化為應用程序,執行實際任務,以檢驗上述步驟是否可以在實際環境中正常運行。

     總之,對待實際的問題時,我們要充分了解當前數據的信息,充分利用數據的信息,借此選擇出相對較好的機器學習算法,來幫助我們更好的解決實際的問題


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM