1.從概率論中相關系數推廣而來
在概率論中,研究兩個變量之間的線性相關情況時,提出了 相關系數 這個概念。做一下推廣,如果研究一個變量和多個隨機變量之間的線性相關關系時,提出了 全相關系數(或者復相關系數)的概念。然后,在1936年,有個叫做hotelling的數學家,又進一步做了推廣,研究 多個隨機變量和多個隨機變量之間的線性相關關系,提出了 經典相關分析 的理論。
2.經典相關分析的定義
經典相關分析是研究兩組變量相關關系的一種多元統計方法。
要研究兩組變量:和
之間的相關關系,有兩種方法:一、列出一張表,就像研究協方差矩陣一樣,這張表中包含兩組變量任意兩個變量之間的相關關系。然后,就基於這張相關系數表進行分析。二、像主成份分析pca一樣,在每一組變量中,都選取若干綜合指標,這些綜合指標是由變量線性組合而成。通過研究兩組綜合指標之間的關系來研究變量之間的線性關系。
3.具體步驟
尋求每一組變量的線性組合,然后兩組變量的線性組合之間具有最大相關性。這中組合不唯一,而且也可能把變量的所有特征全部涵蓋。
繼續尋求尋求每一組變量的線性組合,而這一次則要求兩組變量的線性組合之間具有最大相關性,而且要與第一次找到的組合不相干。也就是具有一種類似於正交的關系。
典型相關分析,為什么叫作典型。每一組變量的線性組合得到的新變量,X和Y 稱之為典型變量。
4.具體計算過程,如下:貼大圖
5. cca的其余解釋版本 參考:http://blog.csdn.net/statdm/article/details/7585113