http://blog.socona.me/2013/03/29/dim-reduce-high-dim-clustering.html
降維作為目前很多研究領域的重要研究分支之一,其方法本身就多種多樣,根據降維方法的不同,產生了很多基於降維的聚類方法,如Kohonen自組織特征映射(self-organizing feature map,SOFM) 、主成分分析(Principle component analysis,PCA) 、多維縮放(Multi-dimensional scaling ,MDS) 等。此外還有一種特殊的降維聚類方法,即基於分形的降維 。
Kohonen 自組織特征映射是一種基於神經元網絡的方法,它在保留數據的近似關系的前提下,尋求高維數據的低維特征映射,基於該方法對高維數據進行聚類處理,是一類典型的投影聚類方法。在Kohonen 自組織特征映射中,競爭層的每一個神經元都要相互競爭,勝出的神經元及其近鄰神經元則更新它們的權值向量,以使其與輸入數據盡可能相似。對神經網絡進行訓練之后,每個高維數據都將根據與神經元的權值向量的匹配情況投影到這些神經元上。
SOFM 的缺點在於它沒有提供一個具體的准則來評價從高維到低維轉換的優劣。而且對於很高維的數據而言,神經網絡的訓練過程收斂會很慢。主成分分析也是應用較為廣泛的降維方法之一。對於一個包含n 個m 維數據的數據集,PCA 方法首先計算一個m ×m階的協方差矩陣;然后計算該矩陣的k 個主導的特征向量,這k 個特征向量代表了原始數據的主要特征。在此基礎上,即可把原始的高維數據沿着k 個特征向量代表的方向進行投影。由於投影之后的數據具有相對很低的維度,則可以利用傳統的聚類算法進行聚類處理。
PCA 雖然提供了一些方法來確定上述k 值,但不同的方法所確定的k 值相差很大,因此還是很難找到正確合理的k 值。k 取值太小,會丟掉原始數據的重要特征;而k 取值過大,雖然能保留絕大部分原始信息,但投影之后的數據維度依然會很高,聚類處理仍然會很困難。PCA 的另一個缺陷在於,其空間復雜度是O(m2 ),時間復雜度是一個取決於特征值的數量並且大於O(m2)的值。為了將PCA 的成熟思想更好地應用於非線性降維領域,又有研究者對線性PCA 進行了擴展,從而產生了核PCA(Kernel PCA ) 。
多維縮放也是把高維數據映射到低維空間的一種方法,其映射過程保留了數據點之間的差異性(或相似性),即在原始數據集中相近的點仍然靠在一起,而遠離的點仍然遠離。該類算法的基本出發點是數據點之間的相似性(或差異性)描述。由於降維的目的就是尋求保持數據集感興趣特性的低維數據集,通過低維數據的分析來獲得相應的高維數據特性,從而達到簡化分析、獲取數據有效特征以及可視化數據的目標。因此,只要最大限度地保持數據間的差異性,便可獲得有效的低維表示。MDS 的缺陷在於,首先它沒有提供一個好的原則來確定究竟將數據降到多少維;此外,大多數該類方法的時間復雜度都是O(n2 )。其中n 為數據集的規模。
基於分形的降維是近年來才得到關注的一類方法。采用分形的思想,首先可以較為准確地估計出數據的本征維,從而為進一步降維提供指導性的參考。與其他方法對本征維的估計所不同的是,基於分形的方法能得到非整數值的本征維,即通常所說的分數維。關於分數維的定義,也有多種不同的描述,其中應用較廣泛的是計盒維(box-counting dimension)和相關維(correlation dimension)。基於對這些相應維的估計,產生了一系列不同的方法,它們都為降維處理奠定了良好的基礎。
我的添加: