1. 什么是高維數據?
對於維度大於2的數據,便稱為高維數據。
2. 該如何對這些高維數據進行處理呢?
數據降維:將高維的數據轉換為 2 維度的形式,但是這樣會丟失一些重要的信息。
這里主要是涉及到線性方法和非線性方法:
線性方法:
主成分分析(PCA): 二維降一維→找方差最大方向;三維降二維→找方差最大方向+其他(即協方差)需要知道數據點每個屬性的具體值。
多維尺度分析:只需要知道數據點之間距離。保證點之間的距離的一致性。
非線性方法:
等度量映射
局部線性嵌入
3. 在對數據進行降維后,如何對高維數據進行可視化呢?
使用散點圖矩陣,表示出屬性之間的相互關系。使用平行坐標軸(每個軸對應一個屬性;一條折線代表一個數據。)
還有基於圖標的方法(用圖標表達多元數據對象;不同圖標元素表示不同屬性;星形圖、切爾諾夫臉譜圖。)
像素圖(能充分利用屏幕空間;每個像素點都表示數據點;利用密集、不同顏色像素表示數據)可以展示不同類別不斷細分下的分布規律,但是不能把詳細的數據點可視化出來。