數據挖掘(DM)基本概念


問題:數據總量爆炸式增加,如何從中提取真正有價值的信息,產生了新的領域(DM)。幾個名詞:

    1)Data Mining:數據挖掘

    2)Knowledge Discovery:知識發現

    3)Machine Learning:機器學習(機器學習是數據挖掘的一個重要工具)

    4)Knowledge Discovery in Database:KDD

 

數據挖掘的主要功能:

    1)概化:歸納、總結和對比數據的特性,將數據特征化或區分,比如對學生的成績按分數段就行統計。

    2)關聯分析:發現數據之間的關聯規則,描述某些屬性在給定數據中一起頻繁出現的條件。

    3)分類和預測:通過已知類別的數據來訓練模型或者函數,評估合格之后用來對未知類別的數據做預測。

    4)聚類分析:審視數據的分布特色,自動得將數據划分為不同的組,即將類似的數據歸類到一組。

    5)離群點分析:在數據當中,跟主流的數據分布顯著不一致的那些點,通常被認為是噪聲或者異常。

    6)趨勢和演變分析:描述行為隨時間變化的對象的發展規律或趨勢。

 

中心趨勢度量:度量數據分布的中部或中心位置,或者說,給定一個屬性,它的值大部分落在何處?有 $3$ 個指標:

    1)均值:最常用最有效的是的算術均值或加權均值,對極端值很敏感。

    2)中位數:對於非對稱數據,數據中心更好的度量是中位數,但在觀測數量很大時,計算開銷很大。

    3)眾數:出現最頻繁的值,也叫模。具有一個、兩個、三個眾數的數據集合分別稱為單峰(單模態)、雙峰的、三峰的。

       a. 當數據對稱時,眾數 = 中位數 = 均值。

       b. 當數據分布正傾斜時,均值受偏高數值的影響較大,其位置在眾數之右,中位數在眾數與算術平均數之間,眾數 < 中位數 < 均值。

       c. 當數據分布負傾斜時,均值受偏小數值的影響較大,其位置在眾數之左,中位數仍在兩者之間,均值 < 中位數 < 眾數。

          

 

數據的散布:度量數據的離散程度。

    1)極差:最大值和最小值之差。

    2)方差和標准差:衡量數據偏離均值的范圍,代表模型的穩定性。

    3)四分位數:把數據划分成四個基本上大小相等的連貫集合。$Q_{1}$:有 25% 的數據;$Q_{2}$:有 50% 的數據;$Q_{3}$:有 75% 的數據在此之下。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM