決策樹、隨機森林與k-means聚類算法

本文轉載自查看原文 2019-07-20 17:24 1202 機器學習

決策樹的構建滿足信息熵增益最大化原則

決策樹的優點：

可解釋性高
能處理非線性的數據
不需要數據歸一化
可以用於特征工程
對數據分布沒有偏好
廣泛使用
容易軟件實現
可以轉化為規則

決策樹的弱點

啟發式生成，不是最優解
容易過擬合
微小的數據改變會改變整個樹的形狀
對類別不平衡的數據不友好

隨機森林指訓練多個決策樹結果，預測時回歸取均值，分類取眾數
隨機體現在帶放回的隨機取數據子集做訓練數據，隨機選擇的特征子集中選擇一個特征
隨機森林消除了決策樹容易過擬合的缺點，不會因為訓練數據的小變化而劇烈變化

K-means算法

初始化：隨機選擇K個點，作為初始中心點，每個點代表一個group.
交替更新：
步驟1.計算每個點到所有中心點的距離，把最近的距離記錄下來並賦把group賦給當前的點
步驟2.針對於每一個group里的點，計算其平均並作為這個group的新的中心點（重心：分別每個維度的坐標和除以坐標個數）。
如果中心點不再變化就停止

一定會收斂嗎？一定收斂
不同的初始化結果，會不會帶來不一樣的結果？會不一樣
K-Means的目標函數是什么？非凸函數，局部最優不一定是全局最優
$ \sum_{i=1}^n \sum_{k=1}^k r_{ik}(x_i-u_k) $
步驟1：假定u已知求r最優解步驟2：假定r已知求u最優解
K如何選擇？求出k=2-n的目標函數的值

其他聚類算法：GMM、層次聚類、Spectral Clustrering、DBSCAN、Kernel K-Means...

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 決策樹與隨機森林算法從決策樹到隨機森林決策樹與隨機森林 K-Means 聚類算法 K-means聚類算法 K-Means聚類算法 K-means聚類算法聚類算法：K-Means 聚類算法——K-means（上） K-means聚類算法