（原創）大數據時代：基於微軟案例數據庫數據挖掘知識點總結（結果預測篇）

本文轉載自查看原文 2014-10-10 16:52 5084 BI開發

前言

本篇文章主要是繼續前幾篇Microsoft決策樹分析算法、Microsoft聚類分析算法、Microsoft Naive Bayes 算法，算法介紹后，經過這幾種算法綜合挖掘和分析之后，對一份擺在公司面前的人員信息列表進行推測，挖掘出這些人員信息中可能購買自行車的群體，把他們交個營銷部，剩下的事就是他們無情的對這群團體騷擾、推薦、營銷....結果你懂的！

本篇也是數據挖掘各層次間最高的產物，推測未知的事物。

鑒於各種算法應用場景不同，還有用法區別...后期我會整理出文章目錄，供對大數據興趣的同學查閱。

應用場景介紹

通過前幾篇文章對挖掘算法的介紹，其實應用的場景大部分是圍繞着已經購買自行車這部分群體的特征、行為分析，對他們的特性進行分類挖掘，對於我們想要知道那些人會買自行車特征進行推測，但所有這些的這些都是基於已經發生的事實，而沒有對未來未發生的事情進行操作，這也是本篇文章將要介紹的應用場景，通過對過去發生的事實進行分析后，來推測將要發生的事情。汗....有點八卦算命的味道。

當然可能感覺本系列對於這個行為預測有點單一，后續的文章中我們將繼續開演：

1、根據往年歷史產品營銷情況，推測下一月、下一季度、下一年的營銷業績....，推測服務器下一個發生事故的時間點，推測一個產品的生命周期，當然這是基於時間規律推測，有興趣的可以推測物價、房價、GDP....甚至下期彩票

2、根據以往產品銷售序列記錄，推測那些產品捆綁銷售比較好，典型的應用場景就是超市貨物擺放、電子商務網站菜單安排、站台的擺放、還有某些網站上比較惡習的相關推薦、某些聊天工具下面的產品推薦等等

3、根據以往產品投放廣告扥營銷手段所帶來的效益，推測收益比較高的投放方式等

4、根據網站中用戶點擊的web流走向，推測用戶興趣所向，典型的應用場景就是：相關新聞推薦、相關圖片介紹，用此來指導網站的合理布局

有興趣的同學可以繼續關注我的博客。下面咱們開始本篇內容

技術准備

（1）同樣我們利用微軟提供的案例數據倉庫（AdventureWorksDW2008R2)，兩張事實表，一張已有的歷史購買自行車記錄的歷史，另外一張就是我們將要挖掘的收集過來可能發生購買自行車的人員信息表，可以參考上一篇文章，不廢話。

（2）VS2008、SQL Server、 Analysis Services沒啥可介紹的，安裝數據庫的時候全選就可以了。

下面進入主題，同樣我們繼續利用上次的解決方案，依次步驟如下：

（1）打開解決方案，進入到“數據源視圖”模板，首先咱們先重點來分析將要預測的這部分人員有啥信息

右鍵選擇預測數據，我記得第一篇文章介紹過這種用法，我們來看這部分元數據，這里我們采用隨機取樣的方式來查看數據

點擊確定，我們直接通過圖表查看信息，這種方式更直接一點，來看看圖；

可以看到，這張表里面包含的信息還是挺多的，其中有幾個屬性還能能滿足咱們前幾篇中決策樹分析算法中看到的幾個重要屬性，比如：年齡、地址、年收入、家里小汽車數量、家里孩子的數量、是否有房子....等等吧，這些都是我們要利用的。

當然也可以通過透視表、透視圖進行更詳細的分析，這里咱就不展開了。

2、單擊“挖掘結構”，我們已經建立好的數據挖掘模型，然后進入最后一個神秘的面板：挖掘模型預測

這里我們可以選擇模型，這里面將列出我們前幾篇文章中所建立的所有模型：

這里我們選擇Microsoft決策樹算法，因為這個算法是涵蓋全部事實的相對最准確的預測模型，然后我們選擇即將預測的事例表，也就上上面我們將要預測的人員信息表。曬圖：

單擊確定，vs會將相同的屬性進行關聯，這里可以右鍵這些鏈接線，進行查看

是吧，都有性別、是否有房、家里車的數量、家里孩子數量、年收入等，當然這些能自動關聯的基礎是這些列的名稱是一樣的，如果列名稱不一樣，我們可以手動關聯。

比如這里我們單擊 Bike Buyer 單元格並從下拉列表中選擇 ProspectiveBuyer.Unknown。對我們將要預測的列進行關聯，因為沒有發生我們只是添加這個空白列，命名為Unknown。

我們來看一下關聯之后的結果圖表

第三步，編輯關聯函數

這里源我們選擇預測函數

在“預測函數”行的“字段”列中，選擇 PredictProbability

從“挖掘模型”窗口的上方選擇 [Bike Buyer]，並將其拖到“條件/參數”單元格中。

單擊“源”列中的下一個空行，然后選擇 MicrosoftTargetTree,在 MicrosoftTargetTree行的“字段”列中，選擇 Bike Buyer,在 MicrosoftTargetTree行的“條件/參數”列中，鍵入 =1,這里我們要預測購買自行車的群體。

將目標表中的主鍵列添加進入模型

最后的最后我們將將要預測的表中幾個要顯示的屬性顯示出來，比如說你肯定要知道名字，然后電話，然后住址...等等信息，方便以后騷擾...拜訪...推薦等吧

第四步，運行查看結果

直接點擊“結果”選項既可以看到結果，我們來看圖：

哈哈....我們的被虐群體已經挖掘出來了...Angel...Alyssa..嘿嘿...所有的這些的這些我們將無情的將他們扔給營銷部去。

我們點擊保存按鈕，將這部分群體先保存到數據庫中

好了，到此我們要挖掘的結果群體已經出現了。下一步就是驗證結果了。

結果分析

我們打開原有數據庫，來看看源表中的數據多少，挖掘出來的群體多少：

嘿嘿...從2059個莫名的群眾中，我們找到了我們最優的客戶，952雖然有點少，但是這將是最優質的客戶！我們重點營銷的對象。然后我們來看一下明細：

根據購買概率我們來了一個排序...上圖可以看到...名字叫Marvin的這貨的購買自行車的概率竟然到達了0.8707，汗...還等着什么...直接電話過去..如果這廝不買自行車，真對不起咱們這次數據挖掘的結果...對不起前幾篇我文章的辛勤付出..對不起人民...對不起黨...呵呵...玩笑了...不買的話后面還有Roy、Albet...等等。

結語

其實針對這一系列的算法，我們已經成功預測出來了我們的結果項，數據挖掘的方式可以應用到很多場景，甚至於跨領域之間的結合，比如我一個IT人員只要你給我足夠的數據，我能告訴你得糖尿病的病人他們的特征是什么？也就是說那種群體最容易得糖尿病，我會告訴你那種特征會得糖尿病幾率更高，比如：體重？年齡？性別？發型？....等等吧，甚至我都能推測出某個個體在那個年齡會得糖尿病！這可可能連專治吹牛逼的老中醫也不一定能做到，而我們一點醫學知識都不懂，數據挖掘就是這么神奇，這就是大數據的力量。

相信未來的事情會以數據的發展去推測進行的，而這就是大數據時代的到來...

文章的最后我來關聯下前三篇總結的鏈接：

Microsoft決策樹分析算法總結

Microsoft聚類分析算法總結

Microsoft Naive Bayes 分析算法

好文章記的推薦哦。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。