數據挖掘(DM)基本概念

本文轉載自查看原文 2020-10-10 09:46 539 Machine-Learning

問題：數據總量爆炸式增加，如何從中提取真正有價值的信息，產生了新的領域(DM)。幾個名詞：

1）Data Mining：數據挖掘

2）Knowledge Discovery：知識發現

3）Machine Learning：機器學習(機器學習是數據挖掘的一個重要工具)

4）Knowledge Discovery in Database：KDD

數據挖掘的主要功能：

1）概化：歸納、總結和對比數據的特性，將數據特征化或區分，比如對學生的成績按分數段就行統計。

2）關聯分析：發現數據之間的關聯規則，描述某些屬性在給定數據中一起頻繁出現的條件。

3）分類和預測：通過已知類別的數據來訓練模型或者函數，評估合格之后用來對未知類別的數據做預測。

4）聚類分析：審視數據的分布特色，自動得將數據划分為不同的組，即將類似的數據歸類到一組。

5）離群點分析：在數據當中，跟主流的數據分布顯著不一致的那些點，通常被認為是噪聲或者異常。

6）趨勢和演變分析：描述行為隨時間變化的對象的發展規律或趨勢。

中心趨勢度量：度量數據分布的中部或中心位置，或者說，給定一個屬性，它的值大部分落在何處？有 $3$ 個指標：

1）均值：最常用最有效的是的算術均值或加權均值，對極端值很敏感。

2）中位數：對於非對稱數據，數據中心更好的度量是中位數，但在觀測數量很大時，計算開銷很大。

3）眾數：出現最頻繁的值，也叫模。具有一個、兩個、三個眾數的數據集合分別稱為單峰(單模態)、雙峰的、三峰的。

a. 當數據對稱時，眾數 = 中位數 = 均值。

b. 當數據分布正傾斜時，均值受偏高數值的影響較大，其位置在眾數之右，中位數在眾數與算術平均數之間，眾數 < 中位數 < 均值。

c. 當數據分布負傾斜時，均值受偏小數值的影響較大，其位置在眾數之左，中位數仍在兩者之間，均值 < 中位數 < 眾數。

數據的散布：度量數據的離散程度。

1）極差：最大值和最小值之差。

2）方差和標准差：衡量數據偏離均值的范圍，代表模型的穩定性。

3）四分位數：把數據划分成四個基本上大小相等的連貫集合。$Q_{1}$：有 25% 的數據；$Q_{2}$：有 50% 的數據；$Q_{3}$：有 75% 的數據在此之下。

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 數據挖掘之關聯分析一（基本概念）數據倉庫與數據挖掘的一些基本概念數據挖掘算法：關聯分析一（基本概念）數據挖掘系列（1）關聯規則挖掘基本概念與Aprior算法數據挖掘-挖掘頻繁模式、關聯和相關性：基本概念和方法【讀書筆記-數據挖掘概念與技術】聚類分析：基本概念和方法數據挖掘中基本概念--數據類型的屬性與度量 Weka中數據挖掘與機器學習系列之基本概念（三）數據挖掘導論第4章分類：基本概念、決策樹與模型評估 CRISP-DM--數據挖掘標准流程