為什么要降維?
- 維數少可以使算法有更快的計算速度,減少機器內存占用等
- 多個特征攜帶的“信息”有相同或類似的情況(冗余)
- 用於數據可視化
如何降維?
簡單的例子,對於二位數據
可以找到一條線
將所有的數據映射到這條線上
然后用映射后的一維數據去代表二位數據
三維降維到二維的例子,假設數據如下
這時,表征一個數據要用三維向量(x1, x2, x3)。如果找到一個平面
並將所有的數據投影到這個平面
這樣數據就變為二維,原來的數據就可以用二維數據(z1, z2)代替
數據可視化例子
現有如下數據(不同國家的50個不同指標(GDP, Per capita GDP 等))
但是這些數據不能直觀的感受它們之間的區別與聯系,如果將數據降維到二維,並用這二維數據去表征50維數據
可以將這二維數據畫出來,雖然說不出這二維數據(z1, z2)分別代表什么意思,但是,將他們畫出來后可以比較直觀的看到誰和誰是相似的(距離近),誰和誰是差別較大的。