curse of dimensionality維數災難
或者翻譯成維度的咒語,這個咒語出現在很多方面:
sampling采樣
如果數據是低維的,所需的采樣點相對就比較少;如果數據是高維的,所需的采樣點就會指數級增加,而實現中面對高維問題時往往無法獲得如此多的樣本點(即使獲得了也無法處理這么龐大數據量),樣本少不具有代表性自然不能獲得正確的結果。
combinatorics組合數學
由於每個維度上候選集合是固定的,維度增加后所有組合的總數就會指數級增加。
machine learning機器學習
在機器學習中要求有相當數量的訓練數據含有一些樣本組合。給定固定數量的訓練樣本,其預測能力隨着維度的增加而減小,這就是所謂的Hughes影響或Hughes現象。
data mining數據挖掘
在組織和搜索數據時有賴於檢測對象區域,這些區域中的對象通過相似度屬性而形成分組。然而在高維空間中,所有的數據都很稀疏,從很多角度看都不相似,因而平常使用的數據組織策略變得極其低效。
距離在高維環境下失去意義
在某種意義上,幾乎所有的高維空間都遠離其中心,或者從另一個角度來看,高維單元空間可以說是幾乎完全由超立方體的“邊角”所組成的,沒有“中部”。一維正態分布有68%的值落於正負標准差之間,而在十維空間上只有0.02%。這對於理解卡方分布是很重要的直覺理解。
卡方分布:若N個隨機變量服從標准正態分布,那么它們的平方和(注意在計算歐氏距離時就要用到各個變量的平方和)構成的新的變量服從卡方分布,N是自由度。下面是其概率密度圖:
自由度越大(維度越高)時,圖形越”平闊“。
然而,也由於本征維度的存在,其概念是指任意低維數據空間可簡單地通過增加空余(如復制)或隨機維將其轉換至更高維空間中,相反地,許多高維空間中的數據集也可削減至低維空間數據,而不必丟失重要信息。這一點也通過眾多降維方法的有效性反映出來,如應用廣泛的主成分分析方法。針對距離函數和最近鄰搜索,當前的研究也表明除非其中存在太多不相關的維度,帶有維數災難特色的數據集依然可以處理,因為相關維度實際上可使得許多問題(如聚類分析)變得更加容易。另外,一些如馬爾可夫蒙特卡羅或共享最近鄰搜索方法[3]經常在其他方法因為維數過高而處理棘手的數據集上表現得很好。
原文來自:博客園(華夏35度)http://www.cnblogs.com/zhangchaoyang 作者:張朝陽
關於高維空間降維的重要性:
1.通過公式的推導(這里就不推導了),會發現高維度空間的體積主要分布在殼部和角部。
2.隨着維度的增加,體積(Vc(正方形),Vr(圓形))會迅速增加。這樣的好處是在樣本空間,樣本的分布會非常稀疏,不易重疊,利於分類。
然后老師又說了一句話:對高維進行概率密度函數設計特別困難,設計分類器也很困難,所以降維是必須的。
這里的理解是,對於高維空間,人為的靠感覺設定一個超平面是可以的,但是要通過計算機計算設定一個超平面,是很困難的,因為概率密度函數不好的設計,所以要降維。
3.高維度空間樣本分布稀疏,導致同類樣本分布相對集中,落在一個較低的子空間中,利於投影,不會導致信息丟失。
4.高維度空間的數據主要分布在殼部和角部,不是均勻分布在整個空間中。
5.根據中心極限定理,高維空間的數據投影到很低維度的空間中,數據將會呈現正態分布。所以,說降維是對分類有效的。
6.根據一個人fakanage的實驗結論:
對於監督分布,設計分類器所需要的樣本數量於空間的維度呈現正比例關系。
對於非監督分布,設計分類器所需要的樣本數量於空間的維度呈現指數關系。
這就解釋了,神經網絡的隱藏層的數量不是越多越好,而是要有足夠的數據樣本作為支持才行。
還有對於高維度空間投影理解:就是讓投影的坐標軸為0.
————————————————
版權聲明:本文為CSDN博主「DX_ByYourself」的原創文章,遵循 CC 4.0 BY-SA 版權協議,轉載請附上原文出處鏈接及本聲明。
原文鏈接:https://blog.csdn.net/CV_YOU/article/details/78412800