數據處理方法歸納


 
一 介紹
對於數據處理來說,整個處理的流程如下圖所示:
å¤ççæµç¨
 
數據預處理——通常包括特征選擇、維規約、規范化等方法。
數據挖掘——這部分的方法和技術非常多,在處理時主要根據自己的目的來選擇對應的方法最為恰當。
數據后處理——主要包括模式過濾、可視化等,目的是為了讓數據挖掘的結果利於使用和觀察。
 
為了讓大家有一個清晰的框架,后面內容的思維導圖如下展示:
æ°æ®ææä¸æºå¨å­¦ä¹ <wbr>ç¥è¯å¾è°±
 
 
二 了解數據
數據處理最關鍵的地方在於解決問題,並不是使用的方法越復雜越好。無論方法多么簡單,只要解決問題就是好的方法。為了解決數據處理的相關問題, 第一步是觀察數據,了解數據相關的概念,然后對數據進行一些處理。這樣對后面具體使用哪個方法來進行分析非常有用。
 
2.1數據預處理
數據預處理對於后續使用數據挖掘或者機器學習技術非常重要。在面臨大數據的當下,數據的維度通常非常的多,因此 數據預處理的一個主要任務就是降低數據維度
2.1.1維歸約
所謂維歸約,就是要減少數據的特征數目,摒棄掉不重要的特征,盡量只用少數的關鍵特征來描述數據。人們總是希望看到的現象主要是由少數的關鍵特征造成的,找到這些關鍵特征也是數據分析的目的。維歸約中主要方法很多,下面介紹幾個:
(1)主成分分析
主成分分析是一種統計方法。通過正交變換將一組可能存在相關性的變量轉換為一組線性不相關的變量,轉換后的這組變量叫主成分。
主成分分析的基本解決的問題是:正交屬性空間中的樣本點,如何使用一個超平面對所有樣本進行恰當的表達?若存在這樣的超平面,那么它大概應具有這樣的性質:
最近重構性:樣本點到這個超平面的距離都足夠近。
最大可分性:樣本點在這個超平面上的投影能盡可能分開。
根據這兩個性質即可得到主成分分析的兩種等價推導。
優點:
1、 可消除評價指標之間的相關影響,因為主成分分析在對原指標變量進行變換后形成了彼此相互獨立的主成分,而且實踐證明指標之間相關程度越高,主成分分析效果越好。
2、 可減少指標選擇的工作量,對於其它評價方法,由於難以消除評價指標間的相關影響,所以選擇指標時要花費不少精力,而主成分分析由於可以消除這種相關影響,所以在指標選擇上相對容易些。
3、 當評級指標較多時還可以在保留絕大部分信息的情況下用少數幾個綜合指標代替原指標。
缺點:
1.在主成分分析中,我們首先應保證所提取的前幾個主成分的累計貢獻率達到一個較高的水平(即變量降維后的信息量須保持在一個較高水平上),其次對這些被提取的主成分必須都能夠給出符合實際背景和意義的解釋(否則主成分將空有信息量而無實際含義)。
2.主成分的解釋其含義一般多少帶有點模糊性,不像原始變量的含義那么清楚、確切,這是變量降維過程中不得不付出的代價。因此,提取的主成分個數m通常應明顯小於原始變量個數p(除非p本身較小),否則維數降低的“利”可能抵不過主成分含義不如原始變量清楚的“弊”。
3.只能處理線性降維。
(2)核主成分分析
線性降維方法假設從高維空間到低維空間的函數映射是線性的,然而在不少現實任務中,可能需要非線性映射才能找到恰當的低維嵌入。如果直接使用線性降維的方式,有可能使得數據喪失原有的低維結構。非線性降維的一種常用方法是,基於核技巧對線性降維方法進行“核化”。
(3)流形學習
流形學習是一類借鑒了拓撲流形概念的降維方法。“流形”是在局部與歐氏空間同胚的空間,換言之,它在局部具有歐氏空間的性質,能用歐氏距離進行距離的計算。這給降維方法帶來了啟發:若低維流形嵌入到高維空間,則數據樣本在高維空間中的分布雖然比較復雜,但在局部上仍具有歐氏空間的性質。因此,可以容易的在局部建立降維映射關系,然后設法將局部映射關系推廣到全局。
(4)多維縮放(Multiple Dimensional Scaling, MDS)
多維縮放是一種降維方法,要求原始空間中樣本之間的距離在低維空間中得以保持。
2.1.2特征選擇
特征選擇( Feature Selection )也稱特征子集選擇( Feature Subset Selection , FSS ),或屬性選擇( Attribute Selection )。是指從已有的M個特征(Feature)中選擇N個特征使得系統的特定指標最優化,是從原始特征中選擇出一些最有效特征以降低數據集維度的過程,是提高學習算法性能的一個重要手段,也是模式識別中關鍵的數據預處理步驟。對於一個學習算法來說,好的學習樣本是訓練模型的關鍵。搜索策略可大致分為以下3類:
(1)過濾式
Relief(Relevant Features)算法
(2)包裹式
LVW(Las Vegas Wrapper)算法
(3)嵌入式
L1/L2 正則化
思考:
特征選擇也是一種降維方式,但是它處理的方式和主成分分析有區別,它直接刪除了某些特征。而主成分分析的每個特征都是其他特征的線性組合。
 
2.2相似性衡量
在做分類或者聚類任務時常常需要估算不同樣本之間的相似性度量(Similarity Measurement),這時通常采用的方法就是計算樣本間的“距離”(Distance)。采用什么樣的方法計算距離是很講究,甚至關系到分類的正確與否。下面就是對常用的相似性度量作一個總結。
2.2.1 閔可夫斯基距離
閔氏距離不是一種距離,而是一組距離的定義。
缺點主要有兩個:
(1) 將各個分量的量綱(scale),也就是“單位”當作相同的看待了。
(2) 沒有考慮各個分量的分布(期望,方差等)可能是不同的。
2.2.2 標准化歐氏距離
標准化歐氏距離是針對簡單歐氏距離的缺點而作的一種改進方案。標准歐氏距離的思路:數據各維分量的分布不一樣,因此先將各個分量都“標准化”到均值、方差相等。
如果將方差的倒數看成是一個權重,這個公式可以看成是一種加權歐氏距離(Weighted Euclidean distance)。
2.2.3 馬氏距離
馬氏距離的優缺點:量綱無關,排除變量之間的相關性的干擾。
2.2.4 夾角余弦
幾何中夾角余弦可用來衡量兩個向量方向的差異,機器學習中借用這一概念來衡量樣本向量之間的差異。
2.2.5 漢明距離
兩個等長字符串s1與s2之間的漢明距離定義為將其中一個變為另外一個所需要作的最小替換次數。例如字符串“1111”與“1001”之間的漢明距離為2。
應用:信息編碼(為了增強容錯性,應使得編碼間的最小漢明距離盡可能大)。
2.2.6 傑卡德距離&傑卡德相似系數
2.2.7 相關系數&相關距離
 
2.3 度量學習
在機器學習中,對高維數據進行降維的主要目標是希望找到一個合適的低維空間,在此空間中進行學習能比原始空間性能更好。事實上,每個空間對應了在樣本屬性上定義的一個距離度量,而尋找合適的空間,本質上就是在尋找一個合適的距離度量。因此,度量學習提出了直接學習出一個合適的距離度量的方案。
 
 
三 數據挖掘與機器學習
在進行完數據探索和預處理后,可能需要對自己的目標數據選擇具體的方法來進行進一步分析。數據探索的動機 通常是對數據進行分類、聚類和關聯分析以及異常檢測,因此下面的方法和技術按照這個順序介紹。
 
3.1分類
分類的方法多種多樣,具體來說,有下面介紹的主要方法。
3.1.1決策樹
**思考:**決策樹的決策過程非常直觀,容易被人理解,因此其除了可以用於分類外,也可用於可視化,因為決策樹的結果很容易做成圖,結果比較清晰。
3.1.2 基於規則的分類器
基於規則的分類器是使用一組“if…then…”規則來對記錄進行分類的技術。
**思考:**基於規則的分類器是最好有創新點的分類方法,因為規則都是自己定的。
3.1.3最近鄰分類器
3.1.4 貝葉斯分類器
(1)朴素貝葉斯分類器
(2)半朴素貝葉斯分類器
(3)貝葉斯網
3.1.5 神經網絡
常見的神經網絡有:
(1)RBF網絡
(2)ART網絡
(3)SOM網絡
(4)級聯相關網絡
(5)Elman網絡
(6)Boltzman機
(7)深度學習
3.1.6支持向量機
 
3.2聚類
3.2.1划分聚類
3.2.2繼承聚類
3.2.3密度聚類
3.2.4 基於圖的聚類
3.2.5可伸縮聚類算法
 
3.3關聯分析
3.3.1 Apriori算法
3.3.2 FP-growth算法
 
3.4 異常檢測
 
 
四、數據后處理
在分析完數據后,通常需要 使用合適的后處理方法對數據的結果進行顯示,其實在數據挖掘里面主要稱作可視化數據挖掘。(注意:這里雖然將數據可視化放在數據后處理小結里面,但是 實際操作中,數據可視化通常也在數據預處理中使用,目的是為了找到數據之間的關系,來決定后面使用什么方法進行進一步分析。)
 
4.1 數據可視化
數據可視化,是關於數據視覺表現形式的科學技術研究。其中,這種數據的視覺表現形式被定義為,一種以某種概要形式抽提出來的信息,包括相應信息單位的各種屬性和變量。
 
4.1.1 少量數據可視化
(1)莖葉圖
它的思路是將數組中的數按位數進行比較,將數的大小基本不變或變化不大的位作為一個主干(莖),將變化大的位的數作為分枝(葉),列在主干的后面,這樣就可以清楚地看到每個主干后面的幾個數,每個數具體是多少。
(2)直方圖
直方圖(Histogram)又稱質量分布圖。是一種統計報告圖,由一系列高度不等的縱向條紋或線段表示數據分布的情況。 一般用橫軸表示數據類型,縱軸表示分布情況。直方圖是數值數據分布的精確圖形表示。
(4)盒狀圖
它由五個數值點組成:最小值(min),下四分位數(Q1),中位數(median),上四分位數(Q3),最大值(max)。也可以往盒圖里面加入平均值(mean)。下四分位數、中位數、上四分位數組成一個“帶有隔間的盒子”。上四分位數到最大值之間建立一條延伸線,這個延伸線成為“胡須(whisker)”。
(5)餅圖
(6)百分位數圖
可表示為:一組n個觀測值按數值大小排列。如,處於p%位置的值稱第p百分位數。
(7)散布圖
制作散布圖的目的是為辨認一個品質特征和一個可能原因因素之間的聯系。
 
4.1.2 可視化時間空間數據
(1)等高線圖
(2)曲面圖
排列在工作表的列或行中的數據可以繪制到曲面圖中。如果您要找到兩組數據之間的最佳組合,可以使用曲面圖。就像在地形圖中一樣,顏色和圖案表示具有相同數值范圍的區域。
(3)矢量場圖
在某些數據中,一個特性可能同時具有值和方向。在這種情況下,同時顯示方向和量的圖可能是有用的。
 
4.1.3 可視化高維數據
(1)矩陣
圖像可以看作像素的矩陣陣列,其中每個像素用它的顏色和亮度刻畫,數據矩陣是值的矩形陣列。
(2)平行坐標系


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM