（原創）大數據時代：基於微軟案例數據庫數據挖掘知識點總結（Microsoft Naive Bayes 算法）

本文轉載自查看原文 2014-10-09 15:40 3804 BI開發

本篇文章主要是繼續上兩篇Microsoft決策樹分析算法和Microsoft聚類分析算法后，采用另外更為簡單一種分析算法對目標顧客群體的挖掘，同樣的利用微軟案例數據進行簡要總結。有興趣的同學可以先參照上面兩種算法過程。

應用場景介紹

通過前面兩種算法的應用場景介紹，此次總結的Microsoft Naive Bayes 算法也同樣適用，但本篇的Microsoft Naive Bayes算法較上兩種算法跟簡單，或者說更輕量級。

該算法使用貝葉斯定力，但是沒有將屬性間的依賴關系融入進去，也就是跟簡單的進行預測分析，因此該假定成為理想化模型的假定，簡單點說：貝葉斯算法就是通過歷史的屬性值進行簡單的兩種對立狀態的推算，而不會考慮歷史屬性值之間的關系，這也就造成了它預測結果的局限性，不能對離散或者連續值進行預測，只能對兩元值進行預測，比如：買/不買、是/否、會/不會等，汗..挺符合中國的易經學中太極圖..凡事只有兩種狀態可以解釋，正所謂：太極生兩儀，兩儀生四相，四相生八卦...所以最簡單的就是最易用的，也是速度最快的。

扯遠了，具體算法明細可參照微軟官方解釋Microsoft Naive Bayes 算法

因為對於上兩篇中的應用場景，對買自行車的顧客群體進行預測，貝葉斯算法同樣也可以做到，反而更簡潔，本篇咱們使用這種算法來預測下，並且看看這種算法它的優越性有哪些。

技術准備

（1）同樣我們利用微軟提供的案例數據倉庫（AdventureWorksDW2008R2)，兩張事實表，一張已有的歷史購買自行車記錄的歷史，另外一張就是我們將要挖掘的收集過來可能發生購買自行車的人員信息表，可以參考上一篇文章

（2）VS、SQL Server、 Analysis Services沒啥可介紹的，安裝數據庫的時候全選就可以了。

下面我們進入主題，同樣我們繼續利用上次的解決方案，依次步驟如下：

（1）打開解決方案，進入到“挖掘模型”模板

可以看到數據挖掘模型中已經存在兩種分析算法，就是我們上兩篇文章分析用到的決策樹分析算法和聚類分析算法。我們繼續添加貝葉斯算法。、

2、右鍵單擊“結構”列，選擇“新建挖掘模型”，輸入名稱即可

點擊確定，這時候會彈出一個提示框，我么看圖：

啥子意思？....上面我們已經分析了貝葉斯算法作為最簡單的兩元狀態預測算法，對於離散值或者連續值它是無能為力的，它單純的認為這個世界只有兩種狀態，那就是是或者非，上圖中標識的這兩列年齡、年收入很明顯為離散的屬性值，所以它是給忽略的。點擊“是”即可。

這樣我們新建立的貝葉斯分析算法就會增加在挖掘模型中，這里我們使用的主鍵和決策樹一樣，同樣的預測行為也是一樣的，輸入列也是，當然可以更改。

下一步，部署處理該挖掘模型。

結果分析

同樣這里面我們采用“挖掘模型查看器”進行查看，這里挖掘模型我們選擇“Clustering”，這里面會提供四個選項卡，下面我們依次介紹，直接曬圖：

這個展示面板可愛多了，集中了決策樹算法中的“依賴關系網絡”，聚類算法中的“屬性配置文件”、“屬性特征”、“屬性對比”；同樣也是這種算法的優點，簡單的特征預測，基於對立面的結果預測，但也有它的缺點，下面我們接着分析：

從依賴關系網絡中可以看到，現在影響購買自行車行為的依賴屬性最重要的是“家庭轎車的數量”、其次是“通勤距離”....當年我們通過決策樹算法預測出來的最牛因素“年齡”，現在已經沒了，汗...只是因為它是離散型值，同樣年收入也一樣，這樣其實使得我們算法的精准度會略有偏低，當然該算法也有決策樹算法做不到的，我們來看“屬性配置文件”面板：

通過該面板我們已經可以進行群體特征分析，這一點是決策樹分析算法做不到的，當然這是聚類分析算法的特點，上面圖片中含義就能看到了家里有1個或者沒有小汽車購買自行車的意願更大一點。其它的分析方法類似，具體可以參照我的上一篇聚類分析算法總結。

“屬性特征”和“屬性對比”兩個面板結果分析也是繼承與聚類分析算法一樣，上一篇文章我們已經詳細介紹了，下面只是切圖曬曬：

是吧，家里沒有孩子、在北美的、一般行駛距離在1Miles(公里？)以內的同志比較想買自行車。

家里沒有小汽車...通常會買自行車傾向於1，如果有2輛了基本就不買了傾向於0,汗...常識...其它就不分析了。

下面我們看一下這種算法對於咱們購買自行車群體預測行為的准確性怎么樣

准確性驗證

最后我們來驗證一下今天這個貝葉斯分析算法的准確性如何，和上兩篇文章中的決策樹算法、聚類分析算法有何差距，我們點擊進入數據挖掘准確性圖表：

可以看到，此次用的貝葉斯分析算法評分已經出來了，僅次於決策樹算法，依次排名為：決策樹分析算法、貝葉斯分析算法、聚類分析算法。看來簡單的貝葉斯分析算法並不簡單，雖然它摒棄掉了兩大屬性值：年齡、年收入，而且其中年齡屬性通過決策樹分析算法分析還是比較重要的一個屬性，貝葉斯無情的拋棄之后，依然以0.78分的優勢遠遠勝於聚類分析算法！而且上面的分析可以看到它還具有聚類分析算法特長項，比如：特征分析、屬性對比等利器。

到此通過三種分析算法的評比，我們好像已經看到了適合我們這種應用需求的最優的分析算法，每種算法的評比，通過上的曲線圖已經輕易的展現出來來了，當然咱們今天的這篇Miscrosoft貝葉斯分析算法也應該結束了。

<------------------------------------------------------------華麗分割線------------------------------------------------------------------------------------------>

但是.......我記得上次寫聚類分析算法的時候，我無意間提到過，如果將國內IT從業人員和非IT從業人員根據性別屬性進行預測的話...結果將會是不寒而栗！你懂得，那我們推測下這里買不買自行車會不會也與性別有關呢？通常男孩子比較喜歡騎自行車...嗯..我是說通常...那么結果呢...我們來看：

我們利用上圖中打分最高的決策樹分析算法來推測我們的問題，我們在”挖掘模型”中右鍵選擇新建模型，選擇決策樹分析算法，我們起個名字：

點擊確定，我們已經將使用決策樹分析算法分析男性購買自行車的概率，然后在該算法結構上右鍵，選擇“設置模型篩選器”。我們來設置篩選過濾條件為：M，即為男銀

我們利用想用的方法繼續建立women(女銀)的決策樹挖掘算法，下面看圖：

這里就不不過多解釋了，我們直接驗證結果，來看看我們上面的推斷有沒有意義。

下面看圖：

....額...額...e...表激動...我那個去...上面根據性別的進行區分的預測模型結果已經出來了，從打分上看，Man(男銀)的決策樹已經能和全部的事例結果相聘美，都是0.71...這也就是說明我們只需要對男人的群體進行預測就可以得到全部市場的規律..而不需要花費精力去研究全部......但是Women(女銀)的分數直接飆升到0.84....汗...在這幾種挖掘算法中利用決策樹算法對於Women這個群體進行預測，結果的精准度竟然達到如此之高！這個模型的存在直接秒殺了其它的任何一種分析算法，神馬聚類、貝葉斯都是浮雲....浮雲而已。

通過上面的分析，我們已經確立了我們的推斷，男性和女性同志在想不想購買自行車這件事情上是有群體差異的，並不是只通過分析全部的事實就可以得到，當然本身而言就男性和女性這兩種地球上特有的物種在行為和特征上就有較大的差距，對於買不買自行車當然也不會相同，呵呵...至少大米國是這樣，上面的圖表驗證這一說法！所以對於不同的行為預測我們可以針對性別來分別挖掘，這樣我們挖掘后得到的推測值將更接近事實。

有興趣可以對是否結婚兩種群體進行分析挖掘，看看結不結婚和買不買自行車有沒有關系。

后記

好了，本篇文章到此可以結束了，下一篇我們將利用前三篇數據挖掘算法分析結果將將要購買自行車的群體的從客戶表中挖掘出來，用他們來達到精准營銷的目的。文章的最后我來關聯下前兩篇總結的鏈接：

Microsoft決策樹分析算法總結

Microsoft聚類分析算法總結

用一句范師傅的話結束本篇文章：大哥，我不想知道我是怎么來的，我只想知道我是怎么沒的........記得推薦哦！

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。