四種主要的數據挖掘任務:
1、預測建模任務
- 分類:用於預測離散的目標變量
- 回歸:用於預測連續的目標變量
2、關聯分析
3、聚類分析
4、異常檢測
主要的數據質量問題:存在噪聲和離群點,數據遺漏、不一致或重復,數據有偏差,或者在別的方面,數據不代表描述所設想的現象或總體情況。
測量標度:將數值或符號值與對象的屬性相關聯的規則(函數),通常將屬性的類型稱為測量標度的類型
數據集主要分為三類:記錄數據,基於圖形的數據、有序的數據
一般數據集的三個特性:
- 維度:數據集中的對象具有的屬性數目,數據預處理的一個重要動機是維規約。
- 稀疏性:如具有非對稱特征的數據集,只有非零值才需要處理。
- 分辨率:如果分辨率太高,分類太細,模式可能看不到,或者掩埋在噪聲里,如果分辨率太低,模式可能不出現。
記錄數據的不同類型:
- 事物數據或購物籃數據:非關系型數據,例如每個消費者的購物時一條記錄,購物車里的所有東西構成數據集
- 數據矩陣:數據對象看做多維空間中的點,每個維代表描述對象的一個不同屬性。
- 稀疏數據矩陣:文檔-詞矩陣
基於圖形的數據:
- 帶有對象之間聯系的數據,如網頁鏈接
- 具有圖形對象的數據,如化學分子
有序數據:
- 時序數據,又叫時間數據,每個記錄包含與之相關聯的時間
- 序列數據:如基因序列
- 時間序列數據:如氣溫時間序列,要考慮時間自相關,時間接近的測量值通常非常相似
- 空間數據:如不同地理位置的信息,考慮空間自相關性
數據清理:對數據質量問題的檢測和糾正
抽樣:數據挖掘處理所有的數據的費用太高,太費時間,因此使用抽樣的算法可以壓縮數據量,從而可以使用更好但開銷更大的算法
特征子集的選擇有三個標准選擇方法:
- 嵌入方法:在數據挖掘算法運行期間,算法本身決定使用哪些屬性和忽略哪些屬性。例如構造決策樹分類的算法。
- 過濾方法:使用某種獨立於數據挖掘任務的方法,在數據挖掘算法運行之前進行特征選擇,例如我們可以選擇屬性的集合,他的屬性對之間的相關度盡可能低。
- 包裝方法:這些方法將目標數據挖掘算法作為黑盒,使用類似於便利所有可能集合的方法,但通常不會全部遍歷一次。
特征創建:可以有原來的屬性創建新的屬性集,新的屬性集可能比原有的要少,主要三種方法
- 特征提取:由原始數據創建新的特征集
- 映射數據到新的空間:例如對時間序列實施傅里葉變換,小波變換
- 特征構造:由原始特征構造成新特征
相似性和相異性的度量
- 相似度:兩個對象相似的程度,通常非負的,在0到1之間取值,兩個對象越相似相似度就越高
- 相異度:兩個對象差異程度的數值度量,對象越類似,相異度就越低,距離是相異度的同義詞
歐幾里德距離是指多維空間兩點間的距離,這是一種用直尺測量出來的距離。
如果將兩個點分別標記為(p1,p2,p3....pn)和(q1,q2,q3.....qn),則歐幾里德距離的計算公式為:
歐幾里得公式的性質:
- 非負性
- 對於所有x和y,d(X,Y)>=0;
- 僅當x=y時,d(x,y)=0;
- 對稱性
- 對於所有x和y,d(x,y)=d(y,x)
- 三角不等式
- 對於所有x,y,z,d(x,z)<=d(x,y)+d(y,z)
對於兩個有n個二元屬性的對象x和y來說,可以用簡單匹配系數,公式為
SMC=(值匹配的屬性個數/屬性個數)=(f₁₁+f00)/(f00 + f10 + f01 + f11) 其中f11表示x取1並且y取1的屬性個數,其他類推
對於非對稱的二元屬性,則用Jaccard系數來處理,忽略0-0匹配
對於文檔相似性,用余弦相似度處理
如果余弦相似度為1,則除大小外,x和y是相同的,如果余弦相似度為0,則他們不包含任何相似的詞