《BI那點兒事》數據挖掘初探

本文轉載自查看原文 2014-10-27 21:52 3178 BI那點兒事

什么是數據挖掘？

數據挖掘（Data Mining），又稱信息發掘（Knowledge Discovery），是用自動或半自動化的方法在數據中找到潛在的，有價值的信息和規則。
數據挖掘技術來源於數據庫，統計和人工智能。

數據挖掘能夠做什么

對企業中產生的大量的數據進行分析，找出其中潛藏的規則
更加清晰的了解目前的業務運行狀況
使得決策者把握未來的決策方向有了科學的依據
預測銷售額

向特定客戶發送郵件
確定可能需要搭售的產品
查找客戶將產品放入購物車的順序序列
......

數據挖掘算法
數據挖掘是從特定形式的數據中提煉知識的過程，其主要任務是對數據的描述、分類和預測。數據挖掘常用的數據預測技術包括線性回歸、最小二乘法和神經網絡。

關於分析服務另外一個比較有意思的就是數據挖掘，在商業智能中，數據挖掘是其中最高的一個層次。現在流行的大數據，最終往往也要靠數據挖掘來體現其價值。

如果說，BI的過程可以看成是數據的昨天，今天和明天，數據的昨天，通過報表告訴你的業務之前發生了什么，數據的今天，通過多維分析等工具告訴你這些為什么會發生，那么數據的明天，就是通過數據挖掘算法，對已有的海量歷史數據進行挖掘，從而讓你知道你的業務未來會是什么樣。

微軟的數據挖掘工具包含了很多算法，比較常見的比如貝葉斯，決策樹，關聯規則和時序分析等。
數據挖掘會分析樣本數據，從中發現規則，然后用於對未來未知數據的預測。通常用來比如電商網站的商品推薦，潛在客戶分析，以及客戶分類等問題之上。

序號	數據挖掘技術	說明
1	Microsoft Naive Bayes 貝葉斯模型	Microsoft Naive Bayes 算法將所有輸入屬性都看作是獨立的，並計算每對輸入屬性值和預測屬性值的概率。此算法可用於分類和預測。
2	Microsoft 關聯規則	Microsoft 關聯算法使用各屬性值或事務項之間的相關性統計來分析數據。
3	Microsoft 聚類分析	Microsoft 聚類分析算法查找屬性值的多維表示形式中數據的自然分組。此算法在需要發現一般分組時很有用。
4	Microsoft 決策樹	Microsoft 決策樹算法是一種適合預測性建模的分類算法。該算法支持離散屬性和連續屬性的預測。
5	Microsoft 邏輯回歸	Microsoft 邏輯回歸算法是一種適合回歸建模的回歸算法。該算法是 Microsoft 神經網絡算法的一種，是通過消除隱藏層獲得的。該算法支持對離散屬性和連續屬性進行預測。
6	Microsoft 神經網絡	Microsoft 神經網絡算法
7	Microsoft 時序	Microsoft 時序算法可以分析與時間相關的數據，以便根據時序分析發現各種模式，如月銷售額模式和年利潤模式。
8	Microsoft 順序分析和聚類分析	Microsoft 順序分析和聚類分析算法綜合了其他兩項數據挖掘技術: 順序分析和聚類分析。此算法分析與順序相關的模式並對進行聚類。
9	Microsoft 線性回歸	Microsoft 線性回歸算法是一種適合回歸建模的回歸算法。該算法是 Microsoft 決策樹算法的一種，是通過禁用拆分(整個回歸公式放在單個根節點中)獲得的。該算法支持對連續屬性進行預測。

數據挖掘的過程，跟其它IT項目一樣，大概可以划分為如下幾個過程。首先，定義問題，然后准備和瀏覽數據，然后生成和驗證模型，最后部署和更新模型。

這個過程不一定是一口氣道底的，比如在模型中發現沒有需要的數據那么就需要重新對數據進行准備，或者在模型驗證階段發現有問題那么可能需要重新定義模型。
數據挖掘用到的查詢語句是DMX，它可以用來創建和處理挖掘模型，並且做預測查詢。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 《BI那點兒事》數據挖掘各類算法——准確性驗證《BI那點兒事》淺析十三種常用的數據挖掘的技術《BI那點兒事》數據倉庫建模：星型模式、雪片模式《BI那點兒事》Microsoft 神經網絡算法《BI那點兒事》ETL中的關鍵技術《BI那點兒事》SQL Server 2008體系架構求職那點兒事《BI那點兒事》Microsoft 邏輯回歸算法——預測股票的漲跌《BI那點兒事》運用標准計分和離差——分析三國超一流統帥綜合實力排名絕對客觀，數據說話《BI那點兒事》SSRS圖表和儀表——雷達圖分析三國超一流謀士、統帥數據（圖文並茂）