9.1聚類分析的經典應用場景
- 目標用戶群體分類
- 不同產品的價值組合
- 探測、發現孤立點、異常值
9.2主要聚類算法的分類
9.3聚類分析在實踐應用中的重點注意事項
數據化運營中聚類算法主要是K-Means算法,但其對噪聲和異常值非常敏感(K-Means算法用的是平均值來聚類)
9.3.1針對數據噪聲和異常值的處理
- 直接刪除那些比任何數據點都要遠離聚類中心點的異常值
- 隨機抽樣規避數據噪聲的影響
9.3.2數據標准化
數據標准化是聚類分析中最重要的一個數據預處理步驟,它即可以為聚類計算中的各個屬性賦予相同的權重,還可以有效化解不同屬性因度量單位不統一所帶來的潛在的數量等級的差異
數據標准化有很多不同方式,標准差標准化最常用(Z-Score標准化),處理后數據符合標准正態分布,即均值為0,標准差為1,轉化公式如下:
9.3.3聚類變量少而精
-
緊緊圍繞具體分析目的和業務需求挑選聚類變量
- 通過相關性檢測,防止相關性搞的變量同時進入聚類計算
- 衍生變量
- 主成分分析
9.4聚類分析的擴展應用
9.4.1聚類的核心指標與非聚類的業務指標相輔相成
先通過用戶行為屬性的核心字段進行聚類分群,得到比較滿意的聚類分群結果之后,針對每個具體的細分群體,再分別考察用戶的會員屬性(年齡、性別、地域、收入、愛好等)
9.4.2數據的探索和清理工具
- 聚類技術產生的聚類類別可以作為一個新的字段加入其它的模型搭建過程中
- 聚類技術可以作為細分群體的建模依據
- 聚類技術的應用本身就是數據探索和熟悉的過程
- 聚類技術對變量的聚類是精簡變量的有效方法
- 聚類技術還可以用檢查數據的共線性問題
9.4.3個性化推薦應用
9.5聚類分析在實際應用中的優勢和缺點
K-Means算法的優點:
- 算法成熟可靠
- 不僅是模型技術,直接響應業務需求,同時還是數據分析前的數據摸底和數據清洗的效思想和工具
- 聚類技術比較容易用商業和業務邏輯來理解和解釋
- K-Means算法簡潔、高效,算法時間復雜度是O(tkn,t是循環次數(算法收斂是已經迭代次數),K是聚類的個數(類別數量),n是數據點的個數(樣本數量),由於t和k遠遠小於n,所以算法時間復雜度與數據集的大小線性相關)
- K-Means算法是一個不依賴順序的算法
K-Means算法的缺點:
- 數據分析師需要事先指定聚類的數目k,在實踐中要測試多個不同的k值才能根效果比較來選擇最合適的k值
- 算法對數據噪聲和異常值比較敏感
9.6聚類分析結果的評價體系和評價指標
9.6.1業務方的評估
9.6.2聚類技術上的評價指標
9.7一個典型的聚類分析課題的案例分享
- 案例背景
- 基本的數據摸底
- 基於用戶樣本的聚類分析的初步結論