決策樹、隨機森林與k-means聚類算法


決策樹的構建滿足信息熵增益最大化原則

決策樹的優點:

  • 可解釋性高
  • 能處理非線性的數據
  • 不需要數據歸一化
  • 可以用於特征工程
  • 對數據分布沒有偏好
  • 廣泛使用
  • 容易軟件實現
  • 可以轉化為規則

決策樹的弱點

  • 啟發式生成,不是最優解
  • 容易過擬合
  • 微小的數據改變會改變整個樹的形狀
  • 對類別不平衡的數據不友好

隨機森林指訓練多個決策樹結果,預測時回歸取均值,分類取眾數
隨機體現在帶放回的隨機取數據子集做訓練數據,隨機選擇的特征子集中選擇一個特征
隨機森林消除了決策樹容易過擬合的缺點,不會因為訓練數據的小變化而劇烈變化

K-means算法

初始化:隨機選擇K個點,作為初始中心點,每個點代表一個group.
交替更新:
步驟1.計算每個點到所有中心點的距離,把最近的距離記錄下來並賦把group賦給當前的點
步驟2.針對於每一個group里的點,計算其平均並作為這個group的新的中心點(重心:分別每個維度的坐標和除以坐標個數)。
如果中心點不再變化就停止

一定會收斂嗎? 一定收斂
不同的初始化結果,會不會帶來不一樣的結果?會不一樣
K-Means的目標函數是什么? 非凸函數,局部最優不一定是全局最優
$ \sum_{i=1}^n \sum_{k=1}^k r_{ik}(x_i-u_k) $
步驟1:假定u已知求r最優解 步驟2:假定r已知求u最優解
K如何選擇?求出k=2-n的目標函數的值

其他聚類算法:GMM、層次聚類、Spectral Clustrering、DBSCAN、Kernel K-Means...


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM