這個系列的筆記是疫情期間在家聽的網絡課程——多元統計分析,由經院劉婧媛、鍾威兩位老師主講,從中國大學mooc上可以搜到。筆記將對課程的主要知識點進行總結和整理,記錄一些課程截圖,也會從網上搜集一些相關的資料,目的是加深認識,防止遺忘。今后如果對相關內容有了更深的理解和認識,可能會對內容進行更正和補充。
本文為前兩章的總結
多元統計分析是同時考量多個變量,從多元數據集中獲取信息的統計方法。一個經典的例子就是鳶尾花數據集,其中的每個樣本包含了四個特征和一個對應的標簽,如下圖所示,通過統計分析,人們可以找到鳶尾花類型(標簽)與四個特征之間的關系,從而實現未來利用新數據已知的特征變量對未知的花類型進行預測的目標。
多元統計分析在市場營銷、金融行業、醫療及學術研究等各個領域都有着廣泛的應用。
1 隨機變量數據描述
樣本就是通過采樣獲得的部分數據點。
隨機采樣的樣本均值可以用來估計總體均值。
樣本方差是對總體方差的無偏估計。
對於多元隨機向量,樣本的期望是由各個分量的期望組成的向量
隨機向量:由多個隨機變量組成的向量。一般用來代表整個數據集對應的樣本向量Y = (y1,……,yn)。
隨機樣本:是指總體中的每個個體都有同等的機會被選中。一般代表數據集中任意一個樣本對應的特征向量。yn = (yn1,……,ynp)
對於二元隨機變量,協方差等於變量乘積的均值減去變量均值的乘積
。變量間正相關則協方差cov(x,y) > 0,負相關cov(x,y) < 0,不相關則cov(x,y) = 0,此處所謂正相關負相關皆屬於線性相關關系。
相關系數實際上是消除了量綱的協方差,將度量尺度標准化為[1,-1]區間,其中σ=0時說明X與Y不相關(線性獨立)。
值得注意的是,σ=0時只能說明X與Y線性獨立,而仍有可能以某種非線性的方式關聯,但如果X和Y服從二元正態分布,並滿足σ=0,則可認為是相互獨立的。
為了簡化數據集的處理過程,我們常將數據用矩陣的方式進行表達和計算,如n個樣本、p種特征的數據集可以表示為n×p維矩陣:
均值向量:即由隨機變量的期望組成的向量。比如鳶尾花數據集中,針對隨機樣本而言,其均值向量就是由樣本總體中各個特征的均值組成的向量,或者說其樣本的期望(均值向量)是由各個分量的期望組成的向量。如上圖第三張所示,多元數據的均值,由多個維度上的均值組合而成。
協方差矩陣:由各個隨機變量兩兩之間的協方差(方差)組成。比如鳶尾花數據集中各個變量之間均可求得協方差,即可組成一個協方差矩陣。矩陣中左上到右下的對角線元素因為對應各個變量本身,因此代表方差;其他位置是兩兩變量之間的協方差。上圖展示了針對隨機向量總體的協方差矩陣Σ和針對隨機樣本的協方差矩陣之間的關系,個人認為可以這樣理解:總體協方差矩陣是一個數據集確定的性質,是我們要獲得的信息;而樣本協方差矩陣是利用任意一個樣本求出的,它在實際操作中作為對總體協方差的估計,其中除以n是最大似然估計,除以n-1是無偏估計,二者不相等。
協方差矩陣性質(百度百科):
*
* ,其中A為矩陣,b是向量
*
此外,協方差矩陣轉化成的行列式|S|被稱為廣義方差(Generalized variance),如果|S|的值很小,可能是數據波動比較小,也有可能是存在共線性現象。
協方差矩陣的跡tr(S)(主對角線求和)被稱為總方差,其刻畫了各變量波動程度的總和,但忽略了變量間的相關性。
同理,樣本相關系數矩陣也可以看做對總體相關系數矩陣的估計,主對角線作為為相同變量的相關系數,均等於1。
2 歐式距離與統計距離
協方差矩陣S的用途除了刻畫數據的離散型,另外就是用於定義統計距離:
歐式距離是歐幾里得空間中兩點間的“直線距離”,相當於在多維空間中對兩點間求距離方法的拓展。馬氏距離是依據數據間協方差定義的距離,實際上是對不同方差的變量進行了歸一化使其更加公平地參與比較,且與數據的測量尺度無關。當協方差矩陣為單位矩陣時,馬氏距離等同於歐式距離。如上方第四張圖中所示,馬氏距離可看做對兩個樣本做標准化后求歐氏距離,y1和y2乘以協方差矩陣轉置后(逆)的平方根。(一個矩陣乘以一個向量相當於對向量做了旋轉和伸縮變換)新形成的兩個向量自身的方差標准化為1,彼此之間協方差為0。
3 向量的分割和隨機變量的線性組合
向量的分割:
以鳶尾花數據為例:
隨機變量的線性組合:隨機變量的線性組合往往用於將多維向量轉變為一維向量。