數據分析第六篇:機器學習分類


 

1. 監督學習,非監督學習,半監督學習和增強學習

機器學習方法分類標准一:

監督學習:分類、回歸

給機器的訓練數據擁有“標記”或“答案”

 

有監督機器學習方法可以分為生成方法和判別方法(常見的生成方法有LDA主題模型朴素貝葉斯算法隱式馬爾科夫模型等,常見的判別方法有SVMLR等),生成方法學習出的是生成模型,判別方法學習出的是判別模型。

 

非監督學習:

給機器的訓練數據沒有“標記”或“答案”

對沒有“標記”的數據進行分類 - 聚類分析

 

非監督學習的意義:

1.對數據進行降維處理

- 特征提取:信用卡的信用評級和人的胖瘦無關

- 特征壓縮:PCA(盡量少損失數據的情況下,將高維的特征壓縮到低維)

2.異常檢測

 

半監督學習:

一部分數據有“標記”,另一部分沒有

更常見:各種原因產生的標記缺失

 

通常先使用無監督學習手段對數據做處理,之后使用監督學習手段做模型的訓練和預測

 

增強學習:(AlphaGo、無人駕駛、機器人)

根據周圍環境的情況,采取行動,根據采取行動的結果,學習行動的方式。

2. 批量學習,在線學習,參數學習和非參數學習

1.在線學習和批量學習(離線學習):

1.1 批量學習

優點:簡單,只需要學習算法的本身,新數據來了,不需要重新學習

問題:如何適應環境的變化?

解決方案:定時重新批量學習

缺點:每次重新批量學習,運算量巨大;在環境變化非常快的話,基本是不可能

 

1.2在線學習

每次輸入樣例,馬上就會拿到正確的結果(股市),然后馬上將數據迭代到機器學習算法中

優點:及時反映新的環境變化

問題:新的數據帶來不好的變化?

解決:需要加強對數據的監控,非監督學習(可以檢測異常數據)

其他:使用於數據量巨大,完全無法批量學習的環境

 

 

2.參數學習和非參數學習:

2.1參數學習(線性回歸)簡單線性回歸、多項式線性回歸、邏輯回歸

參數學習的特點:

一旦學習到可參數,就不需要原有的數據集,比如說線性回歸

 

2.2非參數學習KNN、決策樹、隨機森林

不對模型進行過多假設

非參數不等於沒參數


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM