數據分析第六篇：機器學習分類

本文轉載自查看原文 2017-10-24 15:04 1290 機器學習分類/ 數據分析方向

1. 監督學習，非監督學習，半監督學習和增強學習

機器學習方法分類標准一：

監督學習：分類、回歸

給機器的訓練數據擁有“標記”或“答案”

有監督機器學習方法可以分為生成方法和判別方法（常見的生成方法有LDA主題模型、朴素貝葉斯算法和隱式馬爾科夫模型等，常見的判別方法有SVM、LR等），生成方法學習出的是生成模型，判別方法學習出的是判別模型。

非監督學習：

給機器的訓練數據沒有“標記”或“答案”

對沒有“標記”的數據進行分類 - 聚類分析

非監督學習的意義：

1.對數據進行降維處理

- 特征提取：信用卡的信用評級和人的胖瘦無關

- 特征壓縮：PCA（盡量少損失數據的情況下，將高維的特征壓縮到低維）

2.異常檢測

半監督學習：

一部分數據有“標記”，另一部分沒有

更常見：各種原因產生的標記缺失

通常先使用無監督學習手段對數據做處理，之后使用監督學習手段做模型的訓練和預測

增強學習：（AlphaGo、無人駕駛、機器人）

根據周圍環境的情況，采取行動，根據采取行動的結果，學習行動的方式。

1.在線學習和批量學習（離線學習）：

1.1 批量學習

優點：簡單，只需要學習算法的本身，新數據來了，不需要重新學習

問題：如何適應環境的變化？

解決方案：定時重新批量學習

缺點：每次重新批量學習，運算量巨大；在環境變化非常快的話，基本是不可能

1.2在線學習

每次輸入樣例，馬上就會拿到正確的結果（股市），然后馬上將數據迭代到機器學習算法中

優點：及時反映新的環境變化

問題：新的數據帶來不好的變化？

解決：需要加強對數據的監控，非監督學習（可以檢測異常數據）

其他：使用於數據量巨大，完全無法批量學習的環境

2.參數學習和非參數學習：

2.1參數學習（線性回歸）簡單線性回歸、多項式線性回歸、邏輯回歸

參數學習的特點：

一旦學習到可參數，就不需要原有的數據集，比如說線性回歸

2.2非參數學習KNN、決策樹、隨機森林

不對模型進行過多假設

非參數不等於沒參數

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 機器學習之數據分析使用機器學習進行氣象數據分析 Python數據分析與機器學習-邏輯回歸案例分析【原】數據分析/數據挖掘/機器學習---- 必讀書目 Orange——開源機器學習交互式數據分析工具機器學習、數據分析類面經分享（美的_秋招_校招_20170924）如何選擇機器學習模型進行數據分析_簡要筆記 python數據分析——城市氣候與海洋的關系研究+機器學習【實例】數據分析的三種方法（統計分析、機器學習分析、圖表分析）的區別與聯系《Python數據分析與機器學習實戰-唐宇迪》讀書筆記第1 章--機器學習概念、入門環境