還記得上學那會老師專門敲了黑板,強調方差分析很重要。。單因素方差分析(Analysis of Variance, ANOVA),如果變量多,就是多因素方差分析,還需要考慮到多重共線性,
也就是線性代數里的那些知識了。
現在寫paper,基本上要用兩種不同的方法做數據分析相互驗證。比如用R和SPSS或者SAS,DPS之類。
但不論用什么方法,基本原理都是一樣的,結果應該也一樣。
首先,做方差分析的三大前提條件:
1.獨立性
各樣本必須是相互獨立的隨機樣本
樣本含量盡可能相等或相差不大
2.正態性
樣本的總體符合正態分布,偏態分布不適用於方差分析,對偏態分布應考慮用對數轉換、平方根變換、倒數變換、平方根反正弦變換等變量變換方法變為正態或接近正態分布后再進行方差分析
3.方差齊性
各組樣本具有相同的方差
接下來,就比較簡單了。
把數據一拷貝,再選擇線性回歸,選擇置信區間95%,就能的出結果啦
但是如果不滿足方差齊性,需要勾選上tamhane
如果方差不齊,選擇Tamhane選項。
2019-2-23更
又有同學問到了這個問題,方差分析和線性回歸的區別
其實本質都是一樣,
方差分析的用途,用來判定某個因素的多個水平處理對因變量的影響程度,比如說同種肥料的不同用量對作物的生長影響
見上圖,通常,用於處理自變量都是離散的情形,比如性別,年份,季節,省份,當然連續變量也沒問題,也可以做方差分析
核心思想是:組內方差和組間方差的比值,因為每個樣本都是正態分布的話,恰好服從F分布,F分布也是個右偏分布,
假設組內差異和組件差異相等,F為1,然后求F值,也就是P值,當F值較大,P值較小時,拒絕原假設,也就是說因素顯著地影響了因變量。
當自變量都是連續的,就可以直接用多元線性回歸來分析了。此時,考慮到多重共線性,可以采用向前,向后逐步回歸,當然一般的軟件都給處理了,
同時他也做了方差分析,也就是哪個因素影響大,看P值就好了,哪個P值小,哪個因素就重要
當自變量都是連續,或者包含了離散值,但因變量是離散(二元),就用邏輯回歸。邏輯回歸實際上是個分類算法,另開一篇細說
2019-4-2更新,補一下spss做多因素方差分析的流程,spss有兩個地方可以處理,一個是
第一個是針對自變量來說的,單個自變量的方差分析,第二個是針對因變量來說的,單個因變量,可以有多個自變量,適合做多因素方差分析