1. 監督學習,非監督學習,半監督學習和增強學習
機器學習方法分類標准一:
監督學習:分類、回歸
給機器的訓練數據擁有“標記”或“答案”
有監督機器學習方法可以分為生成方法和判別方法(常見的生成方法有LDA主題模型、朴素貝葉斯算法和隱式馬爾科夫模型等,常見的判別方法有SVM、LR等),生成方法學習出的是生成模型,判別方法學習出的是判別模型。
非監督學習:
給機器的訓練數據沒有“標記”或“答案”
對沒有“標記”的數據進行分類 - 聚類分析
非監督學習的意義:
1.對數據進行降維處理
- 特征提取:信用卡的信用評級和人的胖瘦無關
- 特征壓縮:PCA(盡量少損失數據的情況下,將高維的特征壓縮到低維)
2.異常檢測
半監督學習:
一部分數據有“標記”,另一部分沒有
更常見:各種原因產生的標記缺失
通常先使用無監督學習手段對數據做處理,之后使用監督學習手段做模型的訓練和預測
增強學習:(AlphaGo、無人駕駛、機器人)
根據周圍環境的情況,采取行動,根據采取行動的結果,學習行動的方式。
2. 批量學習,在線學習,參數學習和非參數學習
1.在線學習和批量學習(離線學習):
1.1 批量學習
優點:簡單,只需要學習算法的本身,新數據來了,不需要重新學習
問題:如何適應環境的變化?
解決方案:定時重新批量學習
缺點:每次重新批量學習,運算量巨大;在環境變化非常快的話,基本是不可能
1.2在線學習
每次輸入樣例,馬上就會拿到正確的結果(股市),然后馬上將數據迭代到機器學習算法中
優點:及時反映新的環境變化
問題:新的數據帶來不好的變化?
解決:需要加強對數據的監控,非監督學習(可以檢測異常數據)
其他:使用於數據量巨大,完全無法批量學習的環境
2.參數學習和非參數學習:
2.1參數學習(線性回歸)簡單線性回歸、多項式線性回歸、邏輯回歸
參數學習的特點:
一旦學習到可參數,就不需要原有的數據集,比如說線性回歸
2.2非參數學習KNN、決策樹、隨機森林
不對模型進行過多假設
非參數不等於沒參數
