對The Curse of Dimensionality(維度災難)的理解


一個特性:低維(特征少)轉向高維的過程中,樣本會變的稀疏(可以有兩種理解方式:1.樣本數目不變,樣本彼此之間距離增大。2.樣本密度不變,所需的樣本數目指數倍增長)。

高維度帶來的影響:

1.變得可分。

   由於變得稀疏,之前低維不可分的,在合適的高維度下可以找到一個可分的超平面。

2.過擬合風險。

  過高維度會帶來過擬合的風險(會學習到數據集中的特例或異常,對現實測試數據效果較差)。增加維度的線性模型等效於低維空間里較復雜的非線性分類器。

3.需要更多訓練數據。我們需要更多的訓練數據進行參數估計。

4.過高維度會讓分類變難。

    高維下數據更多分布在空間角落(因為單位球占單位立方體下的空間比例隨着維度增加,越來越小。處於單位球內的可以看出靠近中心),而角落處的特征更難分,因為距離更大。

5.高維度中用距離來衡量樣本相似性的方法已經漸漸失效。

   (幾乎所有的高維空間都遠離其中心,任意兩點的距離會趨向收斂,意思是任意兩點的最大距離和最小距離會變為相同。因此基於歐式距離的k-means算法,會無法進行聚類(因為距離會趨於收斂)。而K-NN會的臨近K個點中,會出現更多非同類的點(遠多於低維度的情況)。)


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM