《BI那點兒事》數據挖掘初探


什么是數據挖掘?

  • 數據挖掘(Data Mining),又稱信息發掘(Knowledge Discovery),是用自動或半自動化的方法在數據中找到潛在的,有價值的信息和規則。
  • 數據挖掘技術來源於數據庫,統計和人工智能。

數據挖掘能夠做什么

對企業中產生的大量的數據進行分析,找出其中潛藏的規則
更加清晰的了解目前的業務運行狀況
使得決策者把握未來的決策方向有了科學的依據
預測銷售額

  • 向特定客戶發送郵件
  • 確定可能需要搭售的產品
  • 查找客戶將產品放入購物車的順序序列
  • ......

數據挖掘算法
數據挖掘是從特定形式的數據中提煉知識的過程,其主要任務是對數據的描述、分類和預測。數據挖掘常用的數據預測技術包括線性回歸、最小二乘法和神經網絡。

關於分析服務另外一個比較有意思的就是數據挖掘,在商業智能中,數據挖掘是其中最高的一個層次。現在流行的大數據,最終往往也要靠數據挖掘來體現其價值。

如果說,BI的過程可以看成是數據的昨天,今天和明天,數據的昨天,通過報表告訴你的業務之前發生了什么,數據的今天,通過多維分析等工具告訴你這些為什么會發生,那么數據的明天,就是通過數據挖掘算法,對已有的海量歷史數據進行挖掘,從而讓你知道你的業務未來會是什么樣。

微軟的數據挖掘工具包含了很多算法,比較常見的比如貝葉斯,決策樹,關聯規則和時序分析等。
數據挖掘會分析樣本數據,從中發現規則,然后用於對未來未知數據的預測。通常用來比如電商網站的商品推薦,潛在客戶分析,以及客戶分類等問題之上。

序號

數據挖掘技術

說明

1

Microsoft Naive Bayes

貝葉斯模型

Microsoft Naive Bayes 算法將所有輸入屬性都看作是獨立的,並計算每對輸入屬性值和預測屬性值的概率。此算法可用於分類和預測。

 

2

Microsoft 關聯規則

Microsoft 關聯算法使用各屬性值或事務項之間的相關性統計來分析數據。

3

Microsoft 聚類分析

Microsoft 聚類分析算法查找屬性值的多維表示形式中數據的自然分組。此算法在需要發現一般分組時很有用。

 

4

Microsoft 決策樹

Microsoft 決策樹算法是一種適合預測性建模的分類算法。該算法支持離散屬性和連續屬性的預測。

 

 

 

5

Microsoft 邏輯回歸

Microsoft 邏輯回歸算法是一種適合回歸建模的回歸算法。該算法是 Microsoft 神經網絡算法的一種,是通過消除隱藏層獲得的。該算法支持對離散屬性和連續屬性進行預測。

6

Microsoft 神經網絡

Microsoft 神經網絡算法

7

Microsoft 時序

Microsoft 時序算法可以分析與時間相關的數據,以便根據時序分析發現各種模式,如月銷售額模式和年利潤模式。

8

Microsoft 順序分析和聚類分析

Microsoft 順序分析和聚類分析算法綜合了其他兩項數據挖掘技術: 順序分析和聚類分析。此算法分析與順序相關的模式並對進行聚類。

9

Microsoft 線性回歸

Microsoft 線性回歸算法是一種適合回歸建模的回歸算法。該算法是 Microsoft 決策樹算法的一種,是通過禁用拆分(整個回歸公式放在單個根節點中)獲得的。該算法支持對連續屬性進行預測。

數據挖掘的過程,跟其它IT項目一樣,大概可以划分為如下幾個過程。首先,定義問題,然后准備和瀏覽數據,然后生成和驗證模型,最后部署和更新模型。

這個過程不一定是一口氣道底的,比如在模型中發現沒有需要的數據那么就需要重新對數據進行准備,或者在模型驗證階段發現有問題那么可能需要重新定義模型。
數據挖掘用到的查詢語句是DMX,它可以用來創建和處理挖掘模型,並且做預測查詢。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM