問題:數據總量爆炸式增加,如何從中提取真正有價值的信息,產生了新的領域(DM)。幾個名詞:
1)Data Mining:數據挖掘
2)Knowledge Discovery:知識發現
3)Machine Learning:機器學習(機器學習是數據挖掘的一個重要工具)
4)Knowledge Discovery in Database:KDD
數據挖掘的主要功能:
1)概化:歸納、總結和對比數據的特性,將數據特征化或區分,比如對學生的成績按分數段就行統計。
2)關聯分析:發現數據之間的關聯規則,描述某些屬性在給定數據中一起頻繁出現的條件。
3)分類和預測:通過已知類別的數據來訓練模型或者函數,評估合格之后用來對未知類別的數據做預測。
4)聚類分析:審視數據的分布特色,自動得將數據划分為不同的組,即將類似的數據歸類到一組。
5)離群點分析:在數據當中,跟主流的數據分布顯著不一致的那些點,通常被認為是噪聲或者異常。
6)趨勢和演變分析:描述行為隨時間變化的對象的發展規律或趨勢。
中心趨勢度量:度量數據分布的中部或中心位置,或者說,給定一個屬性,它的值大部分落在何處?有 $3$ 個指標:
1)均值:最常用最有效的是的算術均值或加權均值,對極端值很敏感。
2)中位數:對於非對稱數據,數據中心更好的度量是中位數,但在觀測數量很大時,計算開銷很大。
3)眾數:出現最頻繁的值,也叫模。具有一個、兩個、三個眾數的數據集合分別稱為單峰(單模態)、雙峰的、三峰的。
a. 當數據對稱時,眾數 = 中位數 = 均值。
b. 當數據分布正傾斜時,均值受偏高數值的影響較大,其位置在眾數之右,中位數在眾數與算術平均數之間,眾數 < 中位數 < 均值。
c. 當數據分布負傾斜時,均值受偏小數值的影響較大,其位置在眾數之左,中位數仍在兩者之間,均值 < 中位數 < 眾數。


數據的散布:度量數據的離散程度。
1)極差:最大值和最小值之差。
2)方差和標准差:衡量數據偏離均值的范圍,代表模型的穩定性。
3)四分位數:把數據划分成四個基本上大小相等的連貫集合。$Q_{1}$:有 25% 的數據;$Q_{2}$:有 50% 的數據;$Q_{3}$:有 75% 的數據在此之下。
