1、 統計學與數據挖掘的區別:
統計學主要利用概率論建立數學模型,是研究隨機現象的常用數學工具之一。
數據挖掘分析大量數據,發現其中的內在聯系和知識,並以模型或規則表達這些知識。
雖然兩者采用的某些分析方法(如回歸分析)是相同的,但是數據挖掘和統計學是有本質區別的:
一個主要差別在於處理對象(數據集)的尺度和性質。數據挖掘經常會面對尺度為GB甚至TB數量級的數據庫,而用傳統的統計方法很難處理這么大尺度的數據集。傳統的統計處理往往是針對特定的問題采集數據(甚至通過試驗設計加以優化)和分析數據來解決特定問題;而數據挖掘卻往往是數據分析的次級過程,其所用的數據原本可能並非為當前研究而專門采集的,因而其適用性和針對性可能都不強,在數據挖掘的過程中,需要對異常數據及沖突字段等進行預處理,盡可能提高數據的質量,然后才經過預處理的數據進行數據挖掘。
另一個差別在於面對結構復雜的海量數據,數據挖掘往往需要采用各種相應的數學模型和應用傳統統計學以外的數學工具,才能建立最適合描述對象的模型或規則。
總之,統計學在生物醫學研究中常采用假設檢驗(或稱顯著性檢驗)方法,其側重假設驅動(hypothesis-driven),即提出假設並加以檢驗;而數據挖掘則不具備這樣的功能,其主要是數據驅動(data-driven),即從數據中發現規律並得到知識。
2、 數據挖掘分類
數據挖掘分為預測型(predictive)和描述型(descriptive)兩大類型。預測型數據挖掘是利用從歷史數據中發現的已知結果,推斷或預測未知數據的可能值。描述型屬於挖掘是識別數據中的模式(pattern)或關系,旨在探索被分析數據的內在性質。根據對象的性質和需要解決的具體問題,可以采用不同的數據挖掘方法。
預測型數據挖掘方法包括分類(classification)、回歸分析(regression analysis)和時間序列分析(time series analysis)等;描述型數據挖掘方法包括聚類(clustering)、關聯規則分析(association rule analysis)和序列分析(sequence analysis)等。