《數據挖掘導論》學習筆記(一)


四種主要的數據挖掘任務:

 1、預測建模任務

  •   分類:用於預測離散的目標變量
  • 回歸:用於預測連續的目標變量

 2、關聯分析

 3、聚類分析

 4、異常檢測

主要的數據質量問題:存在噪聲和離群點,數據遺漏、不一致或重復,數據有偏差,或者在別的方面,數據不代表描述所設想的現象或總體情況。

測量標度:將數值或符號值與對象的屬性相關聯的規則(函數),通常將屬性的類型稱為測量標度的類型

數據集主要分為三類:記錄數據,基於圖形的數據、有序的數據

一般數據集的三個特性:

  • 維度:數據集中的對象具有的屬性數目,數據預處理的一個重要動機是維規約。 
  • 稀疏性:如具有非對稱特征的數據集,只有非零值才需要處理。
  • 分辨率:如果分辨率太高,分類太細,模式可能看不到,或者掩埋在噪聲里,如果分辨率太低,模式可能不出現。

記錄數據的不同類型:

  • 事物數據或購物籃數據:非關系型數據,例如每個消費者的購物時一條記錄,購物車里的所有東西構成數據集
  • 數據矩陣:數據對象看做多維空間中的點,每個維代表描述對象的一個不同屬性。
  • 稀疏數據矩陣:文檔-詞矩陣 

基於圖形的數據:

  • 帶有對象之間聯系的數據,如網頁鏈接
  • 具有圖形對象的數據,如化學分子

有序數據:

  • 時序數據,又叫時間數據,每個記錄包含與之相關聯的時間
  • 序列數據:如基因序列
  • 時間序列數據:如氣溫時間序列,要考慮時間自相關,時間接近的測量值通常非常相似
  • 空間數據:如不同地理位置的信息,考慮空間自相關性

數據清理:對數據質量問題的檢測和糾正

抽樣:數據挖掘處理所有的數據的費用太高,太費時間,因此使用抽樣的算法可以壓縮數據量,從而可以使用更好但開銷更大的算法

特征子集的選擇有三個標准選擇方法:

  • 嵌入方法:在數據挖掘算法運行期間,算法本身決定使用哪些屬性和忽略哪些屬性。例如構造決策樹分類的算法。
  • 過濾方法:使用某種獨立於數據挖掘任務的方法,在數據挖掘算法運行之前進行特征選擇,例如我們可以選擇屬性的集合,他的屬性對之間的相關度盡可能低。
  • 包裝方法:這些方法將目標數據挖掘算法作為黑盒,使用類似於便利所有可能集合的方法,但通常不會全部遍歷一次。

特征創建:可以有原來的屬性創建新的屬性集,新的屬性集可能比原有的要少,主要三種方法

  • 特征提取:由原始數據創建新的特征集
  • 映射數據到新的空間:例如對時間序列實施傅里葉變換,小波變換
  • 特征構造:由原始特征構造成新特征

相似性和相異性的度量

  • 相似度:兩個對象相似的程度,通常非負的,在0到1之間取值,兩個對象越相似相似度就越高
  • 相異度:兩個對象差異程度的數值度量,對象越類似,相異度就越低,距離是相異度的同義詞

歐幾里德距離是指多維空間兩點間的距離,這是一種用直尺測量出來的距離。

如果將兩個點分別標記為(p1,p2,p3....pn)和(q1,q2,q3.....qn),則歐幾里德距離的計算公式為:

歐幾里得公式的性質:

  1. 非負性 
    1. 對於所有x和y,d(X,Y)>=0;
    2. 僅當x=y時,d(x,y)=0;
  2. 對稱性
    1. 對於所有x和y,d(x,y)=d(y,x)
  3. 三角不等式
    1.   對於所有x,y,z,d(x,z)<=d(x,y)+d(y,z)

對於兩個有n個二元屬性的對象x和y來說,可以用簡單匹配系數,公式為

  SMC=(值匹配的屬性個數/屬性個數)=(f₁₁+f00)/(f00 + f10 + f01 + f11)  其中f11表示x取1並且y取1的屬性個數,其他類推

 

對於非對稱的二元屬性,則用Jaccard系數來處理,忽略0-0匹配

對於文檔相似性,用余弦相似度處理    

如果余弦相似度為1,則除大小外,x和y是相同的,如果余弦相似度為0,則他們不包含任何相似的詞

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM