一個特性:低維(特征少)轉向高維的過程中,樣本會變的稀疏(可以有兩種理解方式:1.樣本數目不變,樣本彼此之間距離增大。2.樣本密度不變,所需的樣本數目指數倍增長)。
高維度帶來的影響:
1.變得可分。
由於變得稀疏,之前低維不可分的,在合適的高維度下可以找到一個可分的超平面。
2.過擬合風險。
過高維度會帶來過擬合的風險(會學習到數據集中的特例或異常,對現實測試數據效果較差)。增加維度的線性模型等效於低維空間里較復雜的非線性分類器。
3.需要更多訓練數據。我們需要更多的訓練數據進行參數估計。
4.過高維度會讓分類變難。
高維下數據更多分布在空間角落(因為單位球占單位立方體下的空間比例隨着維度增加,越來越小。處於單位球內的可以看出靠近中心),而角落處的特征更難分,因為距離更大。
5.高維度中用距離來衡量樣本相似性的方法已經漸漸失效。
(幾乎所有的高維空間都遠離其中心,任意兩點的距離會趨向收斂,意思是任意兩點的最大距離和最小距離會變為相同。因此基於歐式距離的k-means算法,會無法進行聚類(因為距離會趨於收斂)。而K-NN會的臨近K個點中,會出現更多非同類的點(遠多於低維度的情況)。)