決策樹的構建滿足信息熵增益最大化原則
決策樹的優點:
- 可解釋性高
- 能處理非線性的數據
- 不需要數據歸一化
- 可以用於特征工程
- 對數據分布沒有偏好
- 廣泛使用
- 容易軟件實現
- 可以轉化為規則
決策樹的弱點
- 啟發式生成,不是最優解
- 容易過擬合
- 微小的數據改變會改變整個樹的形狀
- 對類別不平衡的數據不友好
隨機森林指訓練多個決策樹結果,預測時回歸取均值,分類取眾數
隨機體現在帶放回的隨機取數據子集做訓練數據,隨機選擇的特征子集中選擇一個特征
隨機森林消除了決策樹容易過擬合的缺點,不會因為訓練數據的小變化而劇烈變化
K-means算法
初始化:隨機選擇K個點,作為初始中心點,每個點代表一個group.
交替更新:
步驟1.計算每個點到所有中心點的距離,把最近的距離記錄下來並賦把group賦給當前的點
步驟2.針對於每一個group里的點,計算其平均並作為這個group的新的中心點(重心:分別每個維度的坐標和除以坐標個數)。
如果中心點不再變化就停止
一定會收斂嗎? 一定收斂
不同的初始化結果,會不會帶來不一樣的結果?會不一樣
K-Means的目標函數是什么? 非凸函數,局部最優不一定是全局最優
$ \sum_{i=1}^n \sum_{k=1}^k r_{ik}(x_i-u_k) $
步驟1:假定u已知求r最優解 步驟2:假定r已知求u最優解
K如何選擇?求出k=2-n的目標函數的值
其他聚類算法:GMM、層次聚類、Spectral Clustrering、DBSCAN、Kernel K-Means...