《數據挖掘導論》學習筆記（一）

本文轉載自查看原文 2016-10-23 15:25 1422 學習筆記/ 數據挖掘

四種主要的數據挖掘任務：

　1、預測建模任務

　2、關聯分析

　3、聚類分析

　4、異常檢測

主要的數據質量問題：存在噪聲和離群點，數據遺漏、不一致或重復，數據有偏差，或者在別的方面，數據不代表描述所設想的現象或總體情況。

測量標度：將數值或符號值與對象的屬性相關聯的規則（函數），通常將屬性的類型稱為測量標度的類型

數據集主要分為三類：記錄數據，基於圖形的數據、有序的數據

一般數據集的三個特性：

記錄數據的不同類型：

基於圖形的數據：

有序數據：

數據清理：對數據質量問題的檢測和糾正

抽樣：數據挖掘處理所有的數據的費用太高，太費時間，因此使用抽樣的算法可以壓縮數據量，從而可以使用更好但開銷更大的算法

特征子集的選擇有三個標准選擇方法：

特征創建：可以有原來的屬性創建新的屬性集，新的屬性集可能比原有的要少，主要三種方法

相似性和相異性的度量

歐幾里德距離是指多維空間兩點間的距離，這是一種用直尺測量出來的距離。

如果將兩個點分別標記為(p1,p2,p3....pn)和(q1,q2,q3.....qn),則歐幾里德距離的計算公式為：

歐幾里得公式的性質：

對於兩個有n個二元屬性的對象x和y來說，可以用簡單匹配系數，公式為

　　SMC=（值匹配的屬性個數/屬性個數）=（f₁₁+f00）/(f00 + f10 + f01 + f11) 其中f11表示x取1並且y取1的屬性個數，其他類推

對於非對稱的二元屬性，則用Jaccard系數來處理，忽略0-0匹配

對於文檔相似性，用余弦相似度處理

如果余弦相似度為1，則除大小外，x和y是相同的，如果余弦相似度為0，則他們不包含任何相似的詞

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 《數據挖掘導論》筆記（一）《數據挖掘：概念與技術》—學習筆記數據挖掘：理論與算法（導論）數據挖掘學習筆記：分類器（二）數據挖掘——學習筆記（聚類算法分類） Python與數據挖掘學習筆記（1）——Pandas模塊數據挖掘---Pandas的學習數據挖掘的學習資源《數據挖掘導論》實驗課——實驗七、數據挖掘之K-means聚類算法 R語言學習數據挖掘