對The Curse of Dimensionality（維度災難）的理解

本文轉載自查看原文 2018-05-12 17:58 1131

一個特性：低維（特征少）轉向高維的過程中，樣本會變的稀疏（可以有兩種理解方式：1.樣本數目不變，樣本彼此之間距離增大。2.樣本密度不變，所需的樣本數目指數倍增長）。

高維度帶來的影響：

1.變得可分。

由於變得稀疏，之前低維不可分的，在合適的高維度下可以找到一個可分的超平面。

2.過擬合風險。

過高維度會帶來過擬合的風險（會學習到數據集中的特例或異常，對現實測試數據效果較差）。增加維度的線性模型等效於低維空間里較復雜的非線性分類器。

3.需要更多訓練數據。我們需要更多的訓練數據進行參數估計。

4.過高維度會讓分類變難。

高維下數據更多分布在空間角落（因為單位球占單位立方體下的空間比例隨着維度增加，越來越小。處於單位球內的可以看出靠近中心），而角落處的特征更難分，因為距離更大。

5.高維度中用距離來衡量樣本相似性的方法已經漸漸失效。

（幾乎所有的高維空間都遠離其中心，任意兩點的距離會趨向收斂，意思是任意兩點的最大距離和最小距離會變為相同。因此基於歐式距離的k-means算法，會無法進行聚類（因為距離會趨於收斂）。而K-NN會的臨近K個點中，會出現更多非同類的點（遠多於低維度的情況）。）

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 curse of dimensionality維數災難如何理解維度災難？ [TensorFlow]Tensor維度理解 pytorch 去除維度為1的維度 etcd災難恢復了解常見的 Azure 災難為什么要維度建模 saiku之固定維度（必選維度）一個整數＋1引發的災難「生產事故」MongoDB復合索引引發的災難