常見的數據分析項目類型

本文轉載自查看原文 2020-02-20 12:29 991 數據挖掘

1 目標客戶的特征分析

在目標客戶的典型特征分析中，業務場景可以是試運營之前的虛擬特征探索（來源歷史數據模擬推測），也可以是試運營之后來自真實運營數據基礎上的分析、挖掘和提煉，兩者目標一致，只是思路不同、數據來源不同而已。另外，分析技術也有一定的差異。

2 目標客戶的預測（響應、分類）模型

這里的預測模型包括流失預警模型、付費預測模型、續費預測模型、運營活動響應模型等，其中涉及的主要數據挖掘技術包括邏輯回歸、決策樹、神經網絡、支持向量機等。沒有哪個算法在任何場景下都總能最優勝任響應模型的搭建，所以數據分析師都會嘗試多種不同的算法，然后根據隨后的驗證效果一級具體業務項目的資源與價值進行權衡，並作出最終的選擇。

根據建模數據中實際響應比例大小進行分類，響應模型還可細分為普通響應模型和稀有事件響應模型。一般來講，如果響應比例低於1%，則應當作稀有事件響應模型來處理，其中的核心就是抽樣，人為放大分析數據樣本里響應事件的比例，增加響應事件的濃度，從而在建模中更好地捕捉、擬合自變量與因變量的關系。

預測模型除了可以有效預測個體響應的概率外，模型本身顯示出的重要輸入變量與目標變量的關系也有重要業務價值，比如說可以轉化為伴隨發生響應的關聯因素的提煉。雖然這種關系並不一定是因果關系，需要后期深入分析，但是這種關系也常常會對數據化運營具有重要參考價值。

3 運營群體的活躍度定義

活躍度的定義沒有統一的描述，但是有兩個最常見的基本點：

活躍度的組成指標應該是該業務場景中最核心的行為因素
衡量活躍度的定義合適與否的重要判斷依據是其能否有效回答業務需求的終極目標。

舉個例子，現在需要定義一個活躍度，使得滿足一定活躍度分值的用戶能比較容易轉化成付費用戶。因此該分析的終極目標就是促成付費用戶的轉化，則一個重要的評估依據就是按照該活躍度定義出來的活躍用戶群體里，可以覆蓋多少實際的付費用戶。

活躍度的定義所涉及的統計技術主要有兩個，一個是主成分分析，另一個是數據的標准化。

4 用戶路徑分析

用戶路徑分析是互聯網行業特有的分析專題，主要是分析用戶在網頁上流轉的規律和特點，發現頻繁訪問的路徑模式。這些路徑的發現可以有很多業務用途，包括提煉特定用戶群體的主流路徑、網頁設計的優化和改版、用戶可能瀏覽的下一個頁面的預測、特定群體的瀏覽特征等。路徑分析所用的數據主要是web服務器中的日志數據，這些數據規模通常都是海量級別的。路徑分析常用的技術有兩類，一類是有算法支持的，另一類是嚴格按照步驟順序遍歷主要路徑的。

在互聯網數據化運營的實踐中，如果能把單純的路徑分析技術、算法和其他分析挖掘技術相融合，那么將會產生更大的應用價值。這種融合的思路包括通過聚類技術划分出不同的群體，然后分析不同群體的路徑特征，比如，對比付費和非付費人去的路徑特征，優化頁面布局等、根據下單付費路徑中頻繁出現的異常模式可能來對付費頁面設計進行優化。

5 交叉銷售模型

一旦客戶購買了商品，企業就會想法設法保留客戶，一般會有兩個運營方向，一是延緩客戶流失，通常采用客戶流失預警模型，提前鎖定最可能流失的客戶，然后采取各種客戶關懷措施挽留客戶；二是讓客戶消費更多的商品和服務，挖掘客戶利潤，迎合客戶需求，在這一類場景中，涉及的主要模型就是交叉銷售模型。

交叉銷售模型通過對用戶歷史消費數據的分析挖掘，找出明顯有關聯性質的商品組合（可以同時購買，也可以有先后次序），然后用不同的建模方法，構建消費者購買這些關聯商品組合的可能性，再用其中優秀的模型預測新客戶購買特定商品組合的可能性。

綜合數據挖掘的中外企業實踐來看，最少有4種完全不同的思路。一是按照關聯技術，也即通常所說的購物籃分析，發現那些有較大可能被一起采購的商品，將它們進行有針對的促銷和捆綁，這就是交叉銷售；二是借鑒響應模型的思路，為某幾種重要商品分別建立預測模型，對潛在消費者通過這些預測模型進行過濾，然后針對最有可能前5%的消費者進行精准的營銷推廣；三是仍然借鑒響應模型的思路，讓重要的商品兩兩組合，找出最有可能消費的潛在客戶；四是通過決策樹清晰的樹狀規則，發現基於具體的數據資源的具體規則。

相應的建模技術包括關聯分析、序列分析，即在關聯分析的基礎上，增加了先后順序的考慮，以及預測模型技術，比如邏輯回歸、決策樹。

6 信息質量模型

電商行業連接買賣雙方最直接、最關鍵的紐帶就是海量的商品目錄、商品展示，因此需要提升商品信息的質量和結構，達到要素齊全、布局合理、界面友好。

互聯網行業的信息質量模型所應用的場合主要包括商品offer質量優化、網上店鋪質量優化、網上論壇的發帖質量優化、違規信息的過濾優化。

有時搭建信息質量模型的目標變量是該信息是否在特定的時間段產生了交易，此時的目標變量就是二元的，是與否。但在其他情況下，沒有明確的來自實際數據的目標變量，則專家打分、模型擬合是一個比較合適的變通策略。比如對商品offer構成要素的權重進行打分，包括標題長度、圖片數量、屬性選填的比例、是否有分層價格區間、是否填寫供貨總量信息、是否有運營說明、是否支持在線第三方支付。首先抽取一定的樣本，請行業專家打分，把這些分數作為目標變量，利用數據挖掘各種模型擬合這些要素與總分數之間的關系。

7 服務保障模型

比如讓賣家購買合適的增值產品、讓賣家續費合適的增值產品、賣家山谷額信息的違禁過濾、賣家社區發帖的冷熱判斷等。

8 用戶（賣家、買家）分層模型

分層模型是介於粗放運營與基於個體概率預測模型之間的一種折中和過濾模型，既兼顧了精細化的需要，又不需要投入到預測模型的搭建和維護中，因而在數據化運營的初期和戰略層面上的分析有較大應用價值。

其常用的場景為，客戶服務團隊需要根據分層模型來針對不同群體提供不同說辭和相應服務套餐；企業管理層需要基於在線交易賣家數量來形成以其為核心的賣家分層進化視圖；運營團隊需要客戶分層模型來指導相應的運營方案的制定和執行。

分層模型常用的技術包括統計分析技術（相關性分析、主成分分析），又可以含有預測（響應、分類）模型的技術，比如通過預測模型發現最重要的輸入變量和排序情況，根據這些重要變量對分層進行大致划分，按照業務情況確定分層的指標和門檻，建立輸入變量和分層門檻的預測關系，看該模型的預測結果是否能包含大多數的實際情況，並通過實際數據進行驗證，看其在一定時間長度內是否具有穩定性。

9 賣家（買家）交易模型

涉及主要的分析類型包括：自動匹配（預測）買家感興趣的商品（即商品推薦模型）、交易漏斗模型（找出交易環節的流失漏斗，幫助提升交易效率）、買家細分（幫助提高個性化的商品和服務）、優化交易路徑設計（提升買家消費體驗）。

10 信用風險模型

這里的信用風險包括欺詐預警、糾紛預警、高危用戶判斷等。相比於常規的數據分析挖掘，信用風險分析模型的時效更短、需要更新的頻率更高、模型的及時性和准確性都有很大挑戰，因為行騙手段的變化很大程度上是隨機的。

11 商品推薦模型

11.1商品推薦介紹

根據不同的商業需求，電子商務除了主要的商品推薦，還有query推薦、商品類目推薦、商品標簽推薦、店鋪推薦等。常用的商品推薦模型主要分為規則模型、協同過濾和基於內容的推薦模型。對於規則模型，常用的算法有Apriori算法；而協同過濾中涉及K最近鄰居算法、因子模型等。

11.2 關聯規則（Apriori算法）

給定關聯規則X→Y，即根據X推導出Y。形式化定義為：

支持度（X→Y）=同時包含X和Y的記錄數/數據集記錄總數

置信度（X→Y）=同時包含X和Y的記錄數/數據集中包含X的記錄數

算法過程：

計算頻繁1項集。統計每種商品出現的次數，選取大於等於最小支持度的商品，得到候選項集。
計算頻繁2項集。將頻繁1項集和它本身進行連接運算（即商品的各種二元組合），根據二元組合分別計算記錄數，根據最小支持度得到頻繁2項集。
根據頻繁2項集，同理計算頻繁3項集。並進行剪枝，即頻繁3項集的非空子集必是頻繁的。
一直計算到剪枝后，頻繁n項集為空。
根據頻繁項集，計算關聯規則。即按照已有的頻繁項集中不同項目的組合，得到任意的X→Y，計算其置信度。去除置信度低的。

11.3 協同過濾算法

啟發式協同過濾算法主要包含3個步驟：

收集用戶偏好信息
尋找相似的商品或用戶
產生推薦

協同過濾的輸入數據集主要是用戶評論數據集或者行為數據集。這些數據集又分為顯性數據和隱性數據。其中，顯性數據主要是用戶打分數據，譬如用戶對商品的打分、但是顯性數據存在一定問題，譬如用戶很少參與評論、可能存在欺詐嫌疑，造成打分數據稀疏或者不真實。而隱性數據指用戶的點擊行為、購買行為和搜索行為，這些數據隱性地揭示了用戶對商品的偏好。但隱性數據也存在一定問題，譬如如何識別用戶是為自己購買還是送禮等。

（1）基於用戶的協同過濾（User-based）

基於用戶的協同過濾算法首先根據用戶歷史行為信息，尋找相似的其他用戶，根據這些相似用戶對其他項的評價信息預測當前用戶可能喜歡的項。

在協同過濾中，一個重要的環節就是計算用戶的相似度，一般采用皮爾遜相關系數和余弦相似度，用兩個用戶共同對某些商品的評價信息數據。

另一個重要的環節就是計算用戶對未評分商品的預測分值。用s(u,u')表示用戶u和用戶u'的相似度，N表示鄰居集，U表示用戶集，r_u,i表示用戶u對項i的評分，r^‾_u表示用戶u的平均評分。預測用戶u對項i的評分p_u,i，計算公式如下：

p_u,i=r^‾_u+(∑_ns(u,u')*(r_u^',i - r^‾_u^'))/(∑_n| s(u,u') | )

(2)基於項目的協同過濾（Item-based）

Item-based協同過濾算法計算item之間的相似度，從而預測用戶評分。計算項目相似度也可以用皮爾遜或者余弦相似度，在此給出一種基於條件概率計算的公式：用s(i,,j)表示項i和項j的相似度，freq(iΛj)表示i和j共同出現的概率，α表示阻力因子，主要用於平衡控制流行和熱門的item

s(i,,j)=（freq(iΛj)）/（freq(i）*freq(j）^α）

接下來預測評分，p_u,i表示用戶u對項i的預測評分，S表示和項i相似的項集，r_u,j表示用戶u對項j的評分：

p_u,i=（∑_s s(i,,j)* r_u,j）/(∑_s | s(i,,j) | )

來源:https://www.cnblogs.com/data-science-chinchilla/p/8976920.html

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 常見的數據分析模型數據分析(2)——數據的類型和尺度數據分析常見概念 R語言基礎-數據分析及常見數據分析方法大數據分析中，有哪些常見的大數據分析模型？數據分析中常見的6大類分析方法數據分析為什么要數據分析？數據分析數據分析