相關分析
相關分析定義
相關分析(correlation analysis),相關分析是研究現象之間是否存在某種依存關系,並對詳細有依存關系的現象探討其相關方向以及相關程度,是研究隨機變量之間的相關關系的一種統計方法。
相關關系是一種非確定性的關系,比如,以X和Y分別記一個人的身高和體重,或分別記每公頃施肥量與每公頃小麥產量,則X與Y顯然有關系,而又沒有確切到可由當中的一個去精確地決定還有一個的程度,這就是相關關系。
[編輯本段]
1、線性相關分析:研究兩個變量間線性關系的程度。用相關系數r來描寫敘述。
-正相關:假設x,y變化的方向一致,如身高與體重的關系,r>0;一般地,
·|r|>0.95 存在顯著性相關;
·|r|≥0.8 高度相關;
·0.5≤|r|<0.8 中度相關;
·0.3≤|r|<0.5 低度相關;
·|r|<0.3 關系極弱,覺得不相關
負相關:假設x,y變化的方向相反,如吸煙與肺功能的關系,r<0;
無線性相關:r=0。
假設變量Y與X間是函數關系,則r=1或r=-1;假設變量Y與X間是統計關系,則-1
r的計算有三種:
·Pearson相關系數:對定距連續變量的數據進行計算。
·Spearman和Kendall相關系數:對分類變量的數據或變量值的分布明顯非正態或分布不明時,計算時先對離散數據進行排序或對定距變量值排(求)秩。
2、偏相關分析:研究兩個變量之間的線性相關關系時,控制可能對其產生影響的變量。如控制年齡和工作經驗的影響,預計工資收入與受教育水平之間的相關關系。
3、距離分析:是對觀測量之間或變量之間類似或不類似程度的一種測度,是一種廣義的距離。分為觀測量之間距離分析和變量之間距離分析。
- 不類似性測度:
·a、對等間隔(定距)數據的不類似性(距離)測度能夠使用的統計量有Euclid歐氏距離、歐氏距離平方等。
·b、對計數數據使用卡方。
·c、對二值(僅僅有兩種取值)數據,使用歐氏距離、歐氏距離平方、尺寸差異、模式差異、方差等。
- 類似性測度:
·a、等間隔數據使用統計量Pearson相關或余弦。
·b、測度二元數據的類似性使用的統計量有20余種。
[編輯本段]
相關分析與回歸分析在實際應用中有密切關系。然而在回歸分析中,所關心的是一個隨機變量Y對還有一個(或一組)隨機變量X的依賴關系的函數形式。而在相關分析中 ,所討論的變量的地位一樣,分析側重於隨機變量之間的種種相關特征。比如,以X、Y分別記小學生的數學與語文成績,感興趣的是二者的關系怎樣,而不在於由X去預測Y。
[編輯本段]
研究一個變量 x0與還有一組變量 (x1,x2,…,xn)之間的相關程度。比如,職業聲望同一時候受到一系列因素(收入、文化、權力……)的影響,那么這一系列因素的總和與職業聲望之間的關系,就是復相關。復相關系數R0.12…n的測定,可先求出 x0對一組變量x1,x2,…,xn的回歸直線,再計算x0與用回歸直線預計值憫之間的簡單直線回歸。復相關系數為
R0.12…n的取值范圍為0≤R0.12…n≤1。復相關系數值愈大,變量間的關系愈密切。
偏相關 研究在多變量的情況下,當控制其它變量影響后,兩個變量間的直線相關程度。又稱凈相關或部分相關。比如,偏相關系數 r13.2表示控制變量x2的影響之后,變量 x1和變量x3之間的直線相關。偏相關系數較簡單直線相關系數更能真實反映兩變量間的聯系。
回歸分析
文件夾[隱藏]
[編輯本段]
回歸分析
回歸分析(regression analysis)是確定兩種或兩種以上變數間相互依賴的定量關系的一種統計分析方法。運用十分廣泛,回歸分析依照涉及的自變量的多少,可分為一元回歸分析和多元回歸分析;依照自變量和因變量之間的關系類型,可分為線性回歸分析和非線性回歸分析。假設在回歸分析中,僅僅包含一個自變量和一個因變量,且二者的關系可用一條直線近似表示,這樣的回歸分析稱為一元線性回歸分析。假設回歸分析中包含兩個或兩個以上的自變量,且因變量和自變量之間是線性關系,則稱為多元線性回歸分析。
方差齊性
效應累加
變量無測量誤差
變量服從多元正態分布
觀察獨立
模型完整(沒有包含不該進入的變量、也沒有漏掉應該進入的變量)
誤差項獨立且服從(0,1)正態分布。
現實數據經常不能全然符合上述假定。因此,統計學家研究出很多的回歸模型來解決線性回歸模型假定過程的約束。
研究一 個或多個隨機變量Y1 ,Y2 ,…,Yi與還有一些變量X1、X2,…,Xk之間的關系的統計方法。又稱多重回歸分析。通常稱Y1,Y2,…,Yi為因變量,X1、X2,…,Xk為自變量。回歸分析是一類數學模型,特別當因變量和自變量為線性關系時,它是一種特殊的線性模型。最簡單的情形是一個自變量和一個因變量,且它們大體上有線性關系,這叫一元線性回歸,即模型為Y=a+bX+ε,這里X是自變量,Y是因變量,ε是隨機誤差,通常假定隨機誤差的均值為0,方差為σ^2(σ^2大於0)σ2與X的值無關。若進一步假定隨機誤差遵從正態分布,就叫做正態線性模型。一般的情形,差有k個自變量和一個因變量,因變量的值能夠分解為兩部分:一部分是由自變量的影響,即表示為自變量的函數,當中函數形式已知,但含一些未知參數;還有一部分是由於其它未被考慮的因素和隨機性的影響,即隨機誤差。當函數形式為未知參數的線性函數時,稱線性回歸分析模型;當函數形式為未知參數的非線性函數時,稱為非線性回歸分析模型。當自變量的個數大於1時稱為多元回歸,當因變量個數大於1時稱為多重回歸。
回歸分析的主要內容為:①從一組數據出發確定某些變量之間的定量關系式,即建立數學模型並預計當中的未知參數。預計參數的經常用法是最小二乘法。②對這些關系式的可信程度進行檢驗。③在很多自變量共同影響着一個因變量的關系中,推斷哪個(或哪些)自變量的影響是顯著的,哪些自變量的影響是不顯著的,將影響顯著的自變量選入模型中,而剔除影響不顯著的變量,通經常使用逐步回歸、向前回歸和向后回歸等方法。④利用所求的關系式對某一生產過程進行預測或控制。回歸分析的應用是非常廣泛的,統計軟件包使各種回歸方法計算十分方便。
[編輯本段]
回歸分析的應用
相關分析研究的是現象之間是否相關、相關的方向和密切程度,一般不差別自變量或因變量。而回歸分析則要分析現象之間相關的詳細形式,確定其因果關系,並用數學模型來表現其詳細關系。比方說,從相關分析中我們能夠得知“質量”和“用戶愜意度”變量密切相關,可是這兩個變量之間究竟是哪個變量受哪個變量的影響,影響程度怎樣,則須要通過回歸分析方法來確定。
一般來說,回歸分析是通過規定因變量和自變量來確定變量之間的因果關系,建立回歸模型,並依據實測數據來求解模型的各個參數,然后評價回歸模型能否夠非常好的擬合實測數據;假設能夠非常好的擬合,則能夠依據自變量作進一步預測。
比如,假設要研究質量和用戶愜意度之間的因果關系,從實踐意義上講,產品質量會影響用戶的愜意情況,因此設用戶愜意度為因變量,記為Y;質量為自變量,記為X。依據圖8-3的散點圖,能夠建立以下的線性關系:
Y=A+BX+§
式中:A和B為待定參數,A為回歸直線的截距;B為回歸直線的斜率,表示X變化一個單位時,Y的平均變化情況;§為依賴於用戶愜意度的隨機誤差項。
在SPSS軟件里能夠非常easy地實現線性回歸,回歸方程例如以下:
y=0.857+0.836x
回歸直線在y軸上的截距為0.857、斜率0.836,即質量每提高一分,用戶愜意度平均上升0.836分;或者說質量每提高1分對用戶愜意度的貢獻是0.836分。
740)this.width=740">
上面所看到的的樣例是簡單的一個自變量的線性回歸問題,在數據分析的時候,也能夠將此推廣到多個自變量的多元回歸,詳細的回歸過程和意義請參考相關的統計學書籍。此外,在SPSS的結果輸出里,還能夠匯報R2,F檢驗值和T檢驗值。R2又稱為方程的確定性系數(coefficient of determination),表示方程中變量X對Y的解釋程度。R2取值在0到1之間,越接近1,表明方程中X對Y的解釋能力越強。通常將R2乘以100%來表示回歸方程解釋Y變化的百分比。F檢驗是通過方差分析表輸出的,通過顯著性水平(significant level)檢驗回歸方程的線性關系是否顯著。一般來說,顯著性水平在0.05以下,均有意義。當F檢驗通過時,意味着方程中至少有一個回歸系數是顯著的,可是並不一定全部的回歸系數都是顯著的,這樣就須要通過T檢驗來驗證回歸系數的顯著性。相同地,T檢驗能夠通過顯著性水平或查表來確定。在上面所看到的的樣例中,各參數的意義如表8-2所看到的。
表8-2 線性回歸方程檢驗
指標 |
顯著性水平 |
意義 |
|
R |
0.89 |
“質量”解釋了89%的“用戶愜意度”的變化程度 |
|
F |
276.82 |
0.001 |
回歸方程的線性關系顯著 |
T |
16.64 |
0.001 |
回歸方程的系數顯著 |
演示樣例 SIM手機用戶愜意度與相關變量線性回歸分析
我們以SIM手機的用戶愜意度與相關變量的線性回歸分析為例,來進一步說明線性回歸的應用。從實踐意義講上,手機的用戶愜意度應該與產品的質量、價格和形象有關,因此我們以“用戶愜意度”為因變量,“質量”、“形象”和“價格”為自變量,作線性回歸分析。利用SPSS軟件的回歸分析,得到回歸方程例如以下:
用戶愜意度=0.008×形象+0.645×質量+0.221×價格
對於SIM手機來說,質量對其用戶愜意度的貢獻比較大,質量每提高1分,用戶愜意度將提高0.645分;其次是價格,用戶對價格的評價每提高1分,其愜意度將提高0.221分;而形象對產品用戶愜意度的貢獻相對較小,形象每提高1分,用戶愜意度僅提高0.008分。
方程各檢驗指標及含義例如以下:
指標 |
顯著性水平 |
意義 |
|
R2 |
0.89 |
“質量”和“形象”解釋了89%的“用戶愜意度”的變化程度 |
|
F |
248.53 |
0.001 |
回歸方程的線性關系顯著 |
T(形象) |
0.00 |
1.000 |
“形象”變量對回歸方程差點兒沒有貢獻 |
T(質量) |
13.93 |
0.001 |
“質量”對回歸方程有非常大貢獻 |
T(價格) |
5.00 |
0.001 |
“價格”對回歸方程有非常大貢獻 |
從方程的檢驗指標來看,“形象”對整個回歸方程的貢獻不大,應予以刪除。所以又一次做“用戶愜意度”與“質量”、“價格”的回歸方程例如以下:
用戶愜意度=0.645×質量+0.221×價格
對於SIM手機來說,質量對其用戶愜意度的貢獻比較大,質量每提高1分,用戶愜意度將提高0.645分;用戶對價格的評價每提高1分,其愜意度將提高0.221分(在本演示樣例中,由於“形象”對方程差點兒沒有貢獻,所以得到的方程與前面的回歸方程系數差點兒相同)。
方程各檢驗指標及含義例如以下:
指標 |
顯著性水平 |
意義 |
|
R |
0.89 |
“質量”和“形象”解釋了89%的“用戶愜意度”的變化程度 |
|
F |
374.69 |
0.001 |
回歸方程的線性關系顯著 |
T(質量) |
15.15 |
0.001 |
“質量”對回歸方程有非常大貢獻 |
T(價格) |
5.06 |
0.001 |
“價格”對回歸方程有非常大貢獻 |
擴展閱讀:
1.簡明農業詞典 科學出版社 1978年8月 188頁
2.農業試驗設計與統計方法一百例 陝西科學技術出版社 1987年9月 473頁,569頁
3.http://www.dina.com.cn/ShowInfoContent4.asp?ID=106
回歸分析與相關分析的差別與聯系
差別:
1、相關分析研究的兩個變量是對等關系,回歸分析研究的兩個變量不是對等關系
2、相關分析的兩個變量都是隨機變量,回歸分析自變量是能夠設定和控制的普通變量,因變量是隨機變量
3、回歸方程在進行預測預計時,僅僅能由自變量的數值來預計因變量的可能值,不能由因變量來猜測自變量
聯系:
1、相關分析是回歸分析的基礎
2、回歸分析是相關分析的繼續