什么是數據挖掘?
- 數據挖掘(Data Mining),又稱信息發掘(Knowledge Discovery),是用自動或半自動化的方法在數據中找到潛在的,有價值的信息和規則。
- 數據挖掘技術來源於數據庫,統計和人工智能。

數據挖掘能夠做什么
對企業中產生的大量的數據進行分析,找出其中潛藏的規則
更加清晰的了解目前的業務運行狀況
使得決策者把握未來的決策方向有了科學的依據
預測銷售額
- 向特定客戶發送郵件
- 確定可能需要搭售的產品
- 查找客戶將產品放入購物車的順序序列
- ......
數據挖掘算法
數據挖掘是從特定形式的數據中提煉知識的過程,其主要任務是對數據的描述、分類和預測。數據挖掘常用的數據預測技術包括線性回歸、最小二乘法和神經網絡。
關於分析服務另外一個比較有意思的就是數據挖掘,在商業智能中,數據挖掘是其中最高的一個層次。現在流行的大數據,最終往往也要靠數據挖掘來體現其價值。
如果說,BI的過程可以看成是數據的昨天,今天和明天,數據的昨天,通過報表告訴你的業務之前發生了什么,數據的今天,通過多維分析等工具告訴你這些為什么會發生,那么數據的明天,就是通過數據挖掘算法,對已有的海量歷史數據進行挖掘,從而讓你知道你的業務未來會是什么樣。
微軟的數據挖掘工具包含了很多算法,比較常見的比如貝葉斯,決策樹,關聯規則和時序分析等。
數據挖掘會分析樣本數據,從中發現規則,然后用於對未來未知數據的預測。通常用來比如電商網站的商品推薦,潛在客戶分析,以及客戶分類等問題之上。
| 序號 |
數據挖掘技術 |
說明 |
| 1 |
Microsoft Naive Bayes 貝葉斯模型 |
Microsoft Naive Bayes 算法將所有輸入屬性都看作是獨立的,並計算每對輸入屬性值和預測屬性值的概率。此算法可用於分類和預測。
|
| 2 |
Microsoft 關聯規則 |
Microsoft 關聯算法使用各屬性值或事務項之間的相關性統計來分析數據。 |
| 3 |
Microsoft 聚類分析 |
Microsoft 聚類分析算法查找屬性值的多維表示形式中數據的自然分組。此算法在需要發現一般分組時很有用。
|
| 4 |
Microsoft 決策樹 |
Microsoft 決策樹算法是一種適合預測性建模的分類算法。該算法支持離散屬性和連續屬性的預測。
|
| 5 |
Microsoft 邏輯回歸 |
Microsoft 邏輯回歸算法是一種適合回歸建模的回歸算法。該算法是 Microsoft 神經網絡算法的一種,是通過消除隱藏層獲得的。該算法支持對離散屬性和連續屬性進行預測。 |
| 6 |
Microsoft 神經網絡 |
Microsoft 神經網絡算法 |
| 7 |
Microsoft 時序 |
Microsoft 時序算法可以分析與時間相關的數據,以便根據時序分析發現各種模式,如月銷售額模式和年利潤模式。 |
| 8 |
Microsoft 順序分析和聚類分析 |
Microsoft 順序分析和聚類分析算法綜合了其他兩項數據挖掘技術: 順序分析和聚類分析。此算法分析與順序相關的模式並對進行聚類。 |
| 9 |
Microsoft 線性回歸 |
Microsoft 線性回歸算法是一種適合回歸建模的回歸算法。該算法是 Microsoft 決策樹算法的一種,是通過禁用拆分(整個回歸公式放在單個根節點中)獲得的。該算法支持對連續屬性進行預測。 |
數據挖掘的過程,跟其它IT項目一樣,大概可以划分為如下幾個過程。首先,定義問題,然后准備和瀏覽數據,然后生成和驗證模型,最后部署和更新模型。
這個過程不一定是一口氣道底的,比如在模型中發現沒有需要的數據那么就需要重新對數據進行准備,或者在模型驗證階段發現有問題那么可能需要重新定義模型。
數據挖掘用到的查詢語句是DMX,它可以用來創建和處理挖掘模型,並且做預測查詢。
