這里的預測(響應、分類)模型包括流失預警模型、付費預測模型、續費預測模型、運營活動響應模型等。
預測(響應、分類)模型是數據挖掘中最常用的一種模型類型,幾乎成了數據挖掘技術應用的一個主要代名詞。很多書籍介紹到數據挖掘的技術和應用,首先都會列舉預測(響應、分類)模型,主要的原因可能是響應模型的核心就是響應概率,而響應概率其實就是我們在第1章中介紹的數據化運營六要素里的核心要素—概率(Probability),數據化運營6要素的核心是以數據分析挖掘支撐的目標響應概率(Probability),在此基礎上圍繞產品功能優化、目標用戶細分、活動(文案)創意、渠道優化、成本的調整等重要環節、要素,共同達成數據化運營的持續完善、成功。
預測(響應、分類)模型基於真實業務場景產生的數據而進行的預測(響應、分類)模型搭建,其中涉及的主要數據挖掘技術包括邏輯回歸、決策樹、神經網絡、支持向量機等。有沒有一個算法總是優先於其他算法呢?答案是否定的,沒有哪個算法在任何場景下都總能最優勝任響應模型的搭建,所以在通常的建模過程中,數據分析師都會嘗試多種不同的算法,然后根據隨后的驗證效果以及具體業務項目的資源和價值進行權衡,並做出最終的選擇。
根據建模數據中實際響應比例的大小進行分類,響應模型還可以細分為普通響應模型和稀有事件響應模型,一般來講,如果響應比例低於1%,則應當作為稀有事件響應模型來進行處理,其中的核心就是抽樣,通過抽樣技術人為放大分析數據樣本里響應事件的比例,增加響應事件的濃度,從而在建模過程中更好地捕捉、擬合其中自變量與因變量的關系。
預測(響應、分類)模型除了可以有效預測個體響應的概率之外,模型本身顯示出的重要輸入變量與目標變量的關系也有重要的業務價值,比如說可以轉化成伴隨(甚至導致)發生響應(生成事件)的關聯因素、重要因素的提煉。而很多時候,這種重要因素的提煉,是可以作為數據化運營中的新規則、新啟發,甚至是運營的“新抓手”的。誠然,從嚴格的統計學角度來看,預測響應模型中的輸入變量與目標變量之間的重要關系並不一定是因果關系,嚴格意義上的因果關系還需要后期進行深入的分析和實驗;即便如此,這種輸入變量與目標變量之間的重要關系也常常會對數據化運營具有重要的參考和啟發價值。
比如說,我們通過對在線交易的賣家進行深入分析挖掘,建立了預測響應模型,從而根據一系列特定行為和屬性的組合,來判斷在特定時間段內發生在線交易的可能性。這個響應模型除了生成每個Member_Id在特定時間段發生在線交易的可能性之外,從模型中提煉出來的一些重要輸入變量與目標變量(是否發生在線交易),以及它們之間的關系(包括正向或負向關系,重要性的強弱等)對數據化運營也有着很重要的參考和啟發。在本案例中,我們發現輸入變量近30天店鋪曝光量、店鋪裝修打分超過25分等與是否在線交易有着最大的正相關。根據這些發現和規則整理,盡管不能肯定這些輸入變量與是否在線交易有因果關系,但這些正向的強烈的關聯性也足以為提升在線交易的數據化運營提供重要的啟發和抓手。我們有一定的理由相信,如果賣家提升店鋪的曝光量,如果賣家把自己的店鋪裝修得更好,促進賣家在線成交的可能性會加大。
鏈接:http://book.51cto.com/art/201312/421382.htm