最近有小伙伴在問我一個數據分析的問題, 做畢設, 實證分析. 不知道改如何處理數據.
看了下設計的量表大致是這樣的, 都是 5級的里克特量表, 大致分為兩波, X, Y. 小伙伴認為就只有兩個變量, 這是從商業理論上來認識的, 但從數據的角度, 卻不是的.
X: 一共有22個問題, 也就是22個字段; 里面又是有認為分組的, 三兩個字段, 又被認定為一個別名.
Y: 一共有13個問題, 也就是13個字段; 里面有是人為分組, 三兩字段啥的, 分為 4組, 分別有別名.
然后不知道該如何分析?
問題
探尋 X 與 Y 的相關關系(線性相關)
其實探討的時候, 挺不易的, 就很難知道她到底想要分析什么, 需求是什么, 還以為要做什么回歸分析, 什么相關分析, 什么統計描述或其他的, 總之, 溝通過程非常漫長. 最后我放棄了, 還是單純從這個數據級來分析.
本質上, 其實宏觀來看, 就是 X 和 Y 的相關性如何嘛, 以及如何影響的. 那這不是求一波, 相關系數嘛. 但這里, X, Y 是多個字段, 是多對多 的關系, 就求不來了. 因此需要引進新的方法.
CCA
於是引入了典型相關分析 (Canonical Correlation Analysis), 用於探索多變量之間的關聯關系.
於是這個問題, 就可以初步這樣來做.

更正一波,寫的有點不對, 不是分別降低到一維度. 而是分別降維后, x 和 y 能進行 配對. 這里 y 有13個嘛, x 有22個, 假設根本不對 y 進行降維, 那最多也只能匹配到 13對. 約束條件就是相關系數最大呀. 這塊的數學公式就暫時不寫了, 跟 PCA , 因子分析的邏輯是類似的.
發現了一個神器, 在線SPSS, 叫做 SPSSAU, 付費的, 但功能強大, UI 很有感覺, 重點是完全實現 傻瓜式操作. 雖然我已經不再做這塊了, 但還是很懷念 SPSS, 比較是我數據分析之路的啟蒙軟件. 至少是真正用來做數據分析, 做市場研究的.

簡單, 托拉拽, 一鍵輸出報告, 包含 假設檢驗. 探尋數據的應用意義, 而不用太多關注底層的數學公式. 雖然數學公式會更加幫助理解數據集, 這是后話. 我覺得這才是數據分析的意義:
- 描述性統計分析
- 關聯性統計分析
- 探索性建模分析
這種基於統計理論的分析框架 + 商業理論, 已早已熟練於心. 雖然現在的不用這類 傻瓜工具了, 現在自己搞編程, 但我感覺企業中的數據分析, 至少我接觸的反而更加低級.
- 寫 sql 查詢數據 或 手動下載數據
- 篩選字段, 合並表格
- 計算業務指標, 幾遍的加減乘除, 什么同比環比
- 大量的分組聚合, 生成報表, 看板
真的是, 從技術層面, 毫無難度. 我很多時間都是干這些活, 相比數據分析,我認為的, 我感覺還真不如幾年前用 SPSS 的時光. 起碼是真的再利用數據的價值來進行市場研究, 市場分析.
然后會最終得到這樣類似的結果 , 和一些假設檢驗, 因子載荷等的術語, 都蠻簡單的. (我沒跑, 數據暫不能公開, 找了一張網上的示意圖)

這樣 CCP 就完成了, 多自變量 和 多因變量的關聯分析了.
Next - 回歸
繼續要探尋, X 和部分 y 的關系. 我的思路, 都既然做相關分析了, 那很自然再拓展到回歸分析呀.
合並 y 為 1 列
回歸分析的 y 是一個字段, 因此, 可以將 量表中的 小 y 組進行, 合並為一列. 這里, 可以加權 或者 直接平均, 自己能解釋清楚就行.
主成分 + 多元回歸
有一個 y, 有很多的 x1, x2, x2... 相關分析, 就是要判斷, 這些 x1, x2..與 y 是都是分別有線性相關性的(相關系數高); 而 x1, 與 x2, x3.. 之間呢, 彼此相關系數 要低
第二步就是要降維. 為啥必須要降維度呢, 就是怕 X 矩陣, 存在共線, 然后就不能 求 逆了呀.

PCA降維
至於如何降維, 我感覺我自己都說爛了. 也搞好幾年了, 就是讓特征重新進行線性組合 (改變數據了哦) 為幾個較少得到特征, 然后盡可能保留原來更多的信息 (協方差的范數盡可能大)

求解模型參數
方法1 是一步求解, 就用上面的共線圖中的矩陣運算即可.
方法2 是用梯度下降法來做, 我用的多, 但這個小伙伴, 沒有學過編程, 就還是給推薦, 撒花是點點點算了.
小結
- 多自變量 和 多因變量 分析可以考慮 典型相關分析 CCA 這種 "降維配對" 的技術
- 回歸分析必須 3步: 先做相關性分析; 再做降維處理; 再訓練模型參數;
- PCA 我感覺非常厲害的. 還有一在線版spssau 的工具體驗感很好, 市場研究方面的數據處理, 很適合.
