數據分析系列 客戶流失


數據分析系列 客戶流失

​ 客戶流失是指客戶終止與企業的服務合同或轉向其他公司提供服務,客戶流失分析事宜客戶的歷史通話行為數據,客戶的基礎信息,客戶擁有的產品信息為基礎,通過試單的數據挖掘手段,綜合考慮流失的特點和與之相關的多種因素,從而發現與流失密切相關的特征,在此基礎上簡歷可以在一定時間范圍預測用戶流失傾向的預測模型,為相關業務部門提供有流失傾向的用戶名單和這些客戶的為特征,以便制定恰當的營銷策略,采取針對性措施,挽留客戶

需解決的問題:

  • 哪些客戶可能流失

  • 客戶可能在何時流失

  • 客戶為什么流失

  • 流失的影響

  • 制定的保留措施

客戶流失的類型

  • 公司內客戶轉移:不同業務之間的轉換,這種情況對於公司而言,客戶並沒有流失

  • 客戶被動流失:金融服務商主動終止與客戶之間的關系。主要是由於在客戶的開發過程中忽略了和客戶質量造成

  • 客戶主動流失:

    • 第一種情況:客戶離開了金融行業

    • 第二種情況:客戶轉移到另一個金融服務商

​ 客戶主動流失的原因主要是客戶認為公司不能提供他所期待的價值,即公司為客戶提供的服務價值低於另一家服務商。這可能是客戶對公司的業務和服務不滿意,也可能是客戶僅僅想嘗試一下別家公司提供而本公司未提供的新業務。這種客戶流失形式是研究的主要內容.

如何進行客戶流失分析

​ 1 . 定義預測目標,這是建立在對運營商的商業規划和業務流程的准確把握上,

​ 2 . 針對客戶流失的不同種類分別定義預測目標,進而區別處理。

​ 在客戶流失分析中有倆個核心變量:財務問題/非財務問題,主動流失/被動流失。對不同的流失客戶按該原則加以區分,進而制定不同的流失標准。企業真正要保留的是非財務原因被動流失的客戶。

哪些客戶可能流失

​ 將所有的客戶分為倆類,流失與不流失,選擇適合的流失客戶和為流失客戶的屬性數據組成訓練數據集,包括客戶的歷史通話行為數據,客戶的基礎信息,客戶擁有的產品信息等,Clementine 提供人工神經網絡、決策樹、Logistic回歸等模型用於建立客戶流失的分類模型。

​ 關於流失用戶特征的分析,是一個屬性約減和規則發現問題。Clementine 提供關聯分析方法,可以發現怎樣的規則導致客戶流失。也可以利用 Clementine 的決策樹方法,發現與目標變量(是否流失),關系最為緊密的用戶屬性。

客戶可能在何時流失

​ 生存分析可以解決這類問題。生存分析不僅可以告訴分析人員在某種情況下,客戶可能流失,而且還可以告訴分析人員,在這種情況下,客戶在何時會流失。生存分析以客戶流失的時間為響應變量進行建模,以客戶的人口統計學特征和行為特征為自變量,對每個客戶計算出初始生存率,隨着時間和客戶行為的變化,客戶的生存率也發生變化,當生存率達到一定的閾值后,客戶就可能流失。

流失的影響

​ 流失對客戶自身的影響時,主要可以考慮客戶的流失成本和客戶流失的受益分析。客戶流失成本可以考慮流失帶來的人際關系損失等因素,通過歸納客戶的通話特征來表征。減少客戶流失的一個手段就是增加客戶的流失成本。客戶流失的受益分析就是判斷客戶流失的動機,是價格因素還是為了追求更好的服務等。這方面內容豐富,需作具體分析。 分析客戶流失對公司的影響時,不僅要着眼於對收入的影響,而且要考慮其它方面的影響。單個的客戶流失對公司的影響可能是微不足道的,此時需要研究流失客戶群對公司收入或業務的影響。這時候可能需要對流失客戶進行聚類分析和關聯分析,歸納客戶流失的原因,有針對性的制定防止客戶流失的措施。

 

​ 在預測出有較大流失可能性的客戶后,分析該客戶流失對公司的影響。評估保留客戶后的收益和保留客戶的成本。如果收益大於成本,客戶是高價值客戶,則采取措施對其進行保留。至於低價值客戶,不妨任其流失甚至勸其流失。

案例:

數據說明

​ 選取一定數量的客戶(包括流失的和未流失的),選擇客戶屬性,包括客戶資料、客戶賬戶信息等。利用直方圖、分布圖來初步確定哪些因素可能影響客戶流失。所選取的數據屬性包括:

(1)客戶號;(2)儲蓄賬戶余額;(3)活期賬戶余額;(4)投資賬戶余額;(5)日均交易次數;(6)信用卡支付方式;(7)是否有抵押貸款;(8)是否有賒賬額度;(9)客戶年齡;(10)客戶性別;(11)客戶婚姻狀況;(12)客戶孩子數目;

(13)客戶年收入;

(14)客戶是否有一輛以上汽車;

(15)客戶流失狀態

其中客戶流失狀態有三種屬性:(1)被動流失;(2)主動流失,這是分析中特別關注的一類客戶;(3)未流失。

​ 在開發這個應用之前,企業將所有現有的客戶歸到上述的三個類別中。同時按照常規,所有的人口統計信息(也就是從客戶年齡到客戶是否有一輛以上汽車)每六個月更新一次,而交易信息(從儲蓄賬戶余額到是否有賒賬額度)則是實時更新的。為了讓預測模型能預先進行指示以便采取補救措施,在目標變量(因變量)和輸入變量(自變量)之間設定了 6個月的延遲。也就是說,輸入變量的采集六個月后再將客戶流失狀態分類;因此該模型提早6 個月預測客戶流失在開發這個應用之前,企業 將所有現有的客戶歸到上述的三個類別中。同時按照常規,所有的人口統計信息(也就是從客戶年齡到客戶是否有一輛以上汽車)每六個月更新一次,而交易信息(從儲蓄賬戶余額到是否有賒賬額度)則是實時更新的。為了讓預測模型能預先進行指示以便采取補救措施,在目標變量(因變量)和輸入變量(自變量)之間設定了 6個月的延遲。也就是說,輸入變量的采集六個月后再將客戶流失狀態分類;因此該模型提早6 個月預測客戶流失。

數據描述及圖表分析

​ 在數據理解中,可以利用描述及可視化來幫助探索模式、趨勢和關系。Clementine 中數據理解的數據流圖,包括:使用數據審核,統計分析,網絡圖,直方圖,兩步聚類,關聯分析,查看數據屬性之間的關系

 

 

 

​ 數據審核結果。可以很清楚地了解 14 個數據字段的基本情況。如數據類型、最大最小值、平均值、標准差、偏度、是否唯一、有效記錄個數等。

 

 

 

​ 使用繪圖和直方圖節點將數據可視化就產生了客戶收入和年齡圖及日均交易數的直方圖,將可視化的結果與目標變量聯系起來,可以看出客戶流失狀態包含在不同的圖表中。例如,客戶的離中趨勢,男性和女性客戶的被動流失和主動流失以及每個級別的日均交易次數都包含在了圖表中。這種對關系的初步評估對於建模是很有用的。更重要的是,結果表明主動流失在女性客戶和不太活躍的客戶中較為多見。

 

 

 

​ 網狀圖表明了客戶性別,客戶婚姻狀況,信用卡支付方式,客戶流失狀態之間的聯系。較強的關系由較粗的線表示。那些在一定標准(由用戶定義)之下的聯系則不包括在圖中(例如在被動流失和選中的一些輸入變量之間)。網狀圖表明現有客戶(即非流動者)更多的是那些已婚男性,那些用其它賬戶進行信用卡支付的人。要注意的是,前面已經提到過,客戶流失狀態滯后輸入變量六個月。

關聯分析及聚類的結果為了進一步了解房貸客戶可以使用聚類

​ 使用雙步聚類節點獲得的結果。如圖所示,客戶似乎分為七種自然的聚類。所產生的聚類特征可用來定義和理解每個聚類以及聚類間的區別。例如,我們比較聚類 1 和聚類 4,聚類 1 中包含的是較年輕並絕大多數已婚(92.2%),並且年收入較高的女性。而聚類 4 中包含的是較年長(平均要比 1 中大 5 歲),59.8%已婚,年收入較低(平均要比 1 中低 4000 美元)的男性。聚類的結果對於市場定位和分割研究是非常有用的,但是對於預測建模的作用則沒這么明顯

 

 

 

​ 本例使用關聯分析來制訂規則,尋找輸入變量和目標變量間的關系。這些規則不僅對發現模式、關系和趨勢很重要,對於預測建模(例如決定采用/不采用哪些輸入變量)也很重要。我們使用 Clementine 的 GRI(廣義規則歸納)節點來進行聯合分析,下圖。其中,第一條聯合分析規則表明,有 156 名(或 11.0%的)房貸客戶的投資賬戶余額低於 4988 美元,其中 81.0%是被動流失的。同樣,第三條規則表明有 198 名(或 13.9%的)房貸客戶的活期賬戶余額超過 1017 美元,其中 81.0%是主動流失的。其它的規則可以類似地進行理解。這些規則表明交易和人口統計信息是如何與客戶流失狀態聯系起來的。要注意的是,客戶流失狀態滯后輸入變量六個月。

 

 

 

數據准備 根據數據理解的結果准備建模用的數據,包括數據選擇、新屬性的派生,數據合並等。在本例中,利用Clementine 進行數據准備的數據流圖如圖所示。通過分裂節點,給數據集添加一個新的標志屬性。該標志屬性是 0-16 之間的隨機數。然后再根據標志屬性值(<4和)=4),利用過濾節點,將原來的數據樣本分成訓練集(約占 75%)和測試集(約占 25%)

 

 

建立模型及評估

​ 預測建模是本例中最重要的分析,神經網絡和決策樹尤其適用於對房貸客戶的流失建模。

使用 Clementine 訓練神經網絡模型和建決策樹功能得到的神經網絡和決策樹的結果。

 

 

 

 

​ 決策樹模型中有 4 個終端節點和僅僅 3 個重要的輸入變量(按照重要性降序排列):投資賬戶余額、客戶性別和客戶年齡。神經網絡模型在輸入層、隱藏層和輸出層分別有 15 個、5 個和 3 個神經元。此外,最終要的 5 個輸入變量是(按照重要性降序排列):活期賬戶余額、客戶孩子數目、儲蓄賬戶余額、投資賬戶余額和客戶婚姻狀況。Logistic 回歸模型統計有效,卡方檢驗的 p 值為 1.000,表明數據吻合得很好。此外,下列輸入變量在統計時在 0.05 的有效水平上預測客戶流失狀態也統計有效:儲蓄賬戶余額 c(p 值=0.000)、活期賬戶余額(p 值=0.000)、客戶年齡(p 值=0.002)、客戶年收入(p 值=0.033)及客戶性別(p 值=0.000)。

​ 從用評估圖節點產生的提升表中可以看出每個預測模型都是有效的,如下圖所示(從左至右分別為 Logistic 回歸、決策樹和神經網絡)。提升表中繪制的是累積提升值與樣本百分比的關系(在這里是構造/培訓樣本)。基准值(即評估每個模型的底限)是 1,它表示當從樣本中隨機抽取記錄的百分點時能成功地“擊中”現有客戶。提示值衡量的是當來自數據中的某一記錄是一個現有客戶的降序預測概率能被百分點反映時,預測模型“擊中”現有客戶的成功可能性(准確度)有多高。如圖 (左)所示,每個模型的提升值均大於 1,在 100%時收斂於 1。由於每個預測模型都能以有效精度預測目標變量(起碼對於現有客戶和非現有客戶之間的關系),因此我們可以說它們都是有效的。

 

 

模型部署

​ 本例中,決策樹模型不僅精度最高,也容易理解。結果表明,那些 39 歲以上,在投資帳戶中余額超過 4976 美元的女性更可能主動流失。在 Clementine 中部署模型的數據流圖如圖所示。運行數據流后,Clementine 自動將結果存儲在逗號分隔的文件中。

 

 

 

​ 最后需要指出的是在本例中,模型的總體分類精確率是簡化計算的。在實際使用中,一般還需要考慮誤分類及其相關成本,還有流失客戶和非流失客戶在樣本和總體中的相對比重。

 

 

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM