第九章：聚類分析的典型應用和技術小竅門

本文轉載自查看原文 2018-10-15 13:58 2375 《數據挖掘與數據化運營》

數據化運營中聚類算法主要是K-Means算法，但其對噪聲和異常值非常敏感（K-Means算法用的是平均值來聚類）

9.3.1針對數據噪聲和異常值的處理

數據標准化是聚類分析中最重要的一個數據預處理步驟，它即可以為聚類計算中的各個屬性賦予相同的權重，還可以有效化解不同屬性因度量單位不統一所帶來的潛在的數量等級的差異

數據標准化有很多不同方式，標准差標准化最常用（Z-Score標准化），處理后數據符合標准正態分布，即均值為0，標准差為1，轉化公式如下：

9.3.3聚類變量少而精

9.4.1聚類的核心指標與非聚類的業務指標相輔相成

　　先通過用戶行為屬性的核心字段進行聚類分群，得到比較滿意的聚類分群結果之后，針對每個具體的細分群體，再分別考察用戶的會員屬性（年齡、性別、地域、收入、愛好等）

9.4.2數據的探索和清理工具

9.4.3個性化推薦應用

K-Means算法的優點：

算法成熟可靠
不僅是模型技術，直接響應業務需求，同時還是數據分析前的數據摸底和數據清洗的效思想和工具
聚類技術比較容易用商業和業務邏輯來理解和解釋
K-Means算法簡潔、高效，算法時間復雜度是O(tkn,t是循環次數（算法收斂是已經迭代次數），K是聚類的個數（類別數量），n是數據點的個數（樣本數量），由於t和k遠遠小於n，所以算法時間復雜度與數據集的大小線性相關)
K-Means算法是一個不依賴順序的算法

9.6.1業務方的評估

9.6.2聚類技術上的評價指標

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 第九章 Service 第九章：Javascript類和模塊 9 第九章安全認證《C與指針》第九章練習高數A（下）第九章第九章 Docker安裝及配置第九章 BootstrapTable的使用第九章 LinkedBlockingQueue源碼解析第九章 Redis過期策略第九章、認知能力