《數據挖掘導論》筆記 (一)


緒論

什么是數據挖掘

數據挖掘是再大型數據存儲庫中,自動地發現有用信息的過程。(發現先前未知的有用模式,還可以預測未來觀測結果)

並非所有的信息發現都視為數據挖掘,例使用數據庫查找個別的記錄或通過因特網查找特定的Web頁面,則是信息檢索。盡管如此,人們也在利用數據挖掘技術增強信息檢索系統的能力。

數據挖掘是數據庫中知識發現(KDD)不可缺少的一部分。而KDD是將未加工的數據轉換為有用信息的整個過程。

KDD過程:

image

數據挖掘要解決的問題:

1.可伸縮——如果數據挖掘算法要處理這些海量數據集,則算法必須是可伸縮的。為了實現可伸縮可能還需要實現新的數據結構,才能以有效的方式訪問每個記錄。例如,當要處理的數據不能放進內存時,可能需要非內存算法。使用抽樣技術或開發並行和分布算法也可以提高可伸縮成都

2.高維性——常常遇到具有成百上千屬性的數據集,隨着維度(特征數)的增加,計算復雜性迅速增加。

3.異種數據和復雜數據——隨着數據挖掘作用越來越大,越來越需要能夠處理異種屬性的技術。此外,為挖掘復雜對象而開發的技術應當考慮數據中的聯系。

4.數據的所有權與分布——有時,需要分析的數據並非存放在一個站點,或歸屬一個機構,而是地理上分布在屬於多個機構的資源中。這就需要開發分布式數據挖掘技術。

5.非傳統的分析——傳統的統計方法基於一種假設-檢驗模式,即提出一種假設,設計實驗來收集數據,然后針對假設分析數據。現在的一些數據集常常涉及非傳統的數據類型的數據分布。

 

數據挖掘的起源

image

數據挖掘任務

數據挖掘任務分為下面兩大類:

1.預測任務

2.描述任務:其目標是導出概括數據中潛在聯系的模式(相關、趨勢、聚類、軌跡和異常)。本質上,描述性數據挖掘任務通常是探查性的,並且常常需要后處理技術驗證和解釋結果。

四種主要數據挖掘任務:

image

(1)預測建模:涉及以說明變量函數的方式為目標變量建立模型。有兩類預測建模任務:分類,用於預測離散的目標變量;回歸,用於預測連續的目標變量。

(2)關聯分析:用來發現描述數據中強關聯特征的模式,所發現的模式通常用蘊涵規則或特征子集的形式表示。由於搜索空間是指數規模的,關聯分析的目標是以有效的方式提取最有趣的模式。關聯分析的應用包括找出具有相關功能的基因組、識別用戶一起訪問的Web頁面、理解地球氣候系統不同元素之間的聯系等。

(3)聚類分析:旨在發現緊密相關的觀測值組群,使得與屬於不同簇的觀測值相比,屬於同一簇的觀測值相互之間盡可能類似。

(4)異常檢測:識別其特征顯著不同於其他數據的觀測值。這樣的觀測值稱為異常點或離群點。異常檢測算法的目標是發現真正的異常點。而避免錯誤地將正常的對象標注為異常點


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM