一、基本思想
方差分析的基本思想是:通過分析研究不同來源的變異對總變異的貢獻大小,從而確定可控因素對研究結果影響力的大小。
二、應用
數據分析師在用方差分析主要用途:①均數差別的顯著性檢驗,②分離各有關因素並估計其對總變異的作用,③分析因素間的交互作用,④方差齊性檢驗。
三、實例(數據符合方差齊性檢驗)
例一:單因素檢驗
第一部分:項目描述
項目1:酸奶飲料新產品口味測試研究案例。
建模目標:選擇最優樣品,並利用該模型對城市間的差異、城市與品牌間的交互作用等問題進行探討。
分析方法:交叉表、多因素方差分析模型。
分析過程:數據:拆分文件;描述統計:交叉表;比較均值:均值;統計圖:誤差線條圖;一般線性模型:單變量。
第二部分:模型過程,
第一步,先進行單變量方差分析:一般線性模型 → 單變量,檢驗該因素是否具有統計作用。
第二步,若具有統計作用,則接着組間兩兩比較,檢驗哪兩個品牌之間具有差異。輸出結果如下:將品牌分為2個子集,且兩個子集中間是差異的P值<5,子集之間的各品牌是無差異的P值>5。
|
|
子集1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
P值(子集2中的品牌是否有差異,大於5代表無差異) |
注:常常兩兩比較方法有,LSD、Bonferoni、TUKEY、Scheffe、S-N-K等等。方差分析的前提是數據具有獨立性、正態性和方差齊性。在做方差分析前,則需要做方差齊性檢驗。
例二:多因素檢驗
1. 類似於一般線性單因素檢驗,輸出每個因素是否具有統計性意義的檢驗,還包括兩個因素之間是否具有交互作用的檢驗,當P<5時,代表具有統計意義。
2. 如果發現無交互作用統計意義,則需要建立主效應模型,剔除交互作用。
3. 進行組間兩兩比較,給出分類。
三、實例(數據不符合方差齊性檢驗)
項目2:偏態分布的激素水平影響因素分析。
建模目標:在控制了其他因素的作用之處,激素水平是否的確在對照組和實驗組之間存在差異。
分析方法:Bootstrap抽樣、秩和檢驗、秩變換方法和Cox回歸。
分析過程:轉換:計算變量、個案排秩;表:設定表;統計圖:直方圖、散點圖;比較均值:均值;描述統計:描述、P-P圖;非參數檢驗:獨立樣本;生存函數:Cox回歸。
第一步,觀察變量分布
用頻數、描述統計量、直方圖等觀察分布。
第二步,變量關聯探索(三種方法)
由於激素水平呈偏態分布,因此變量關聯不能簡單地套用常規的t檢驗等方法。
1. 采用Bootstrap抽樣進行分析
1.1 基本原理:在原始數據范圍內做有放回的重復抽樣,樣本含量仍為n,原始數據中每個觀察單位每次被抽到的概率相等,為1/n,所得樣本成為Bootstrap樣本。於是可得到任何一個參數sita的一個估計值,重復抽樣若干次,即為B。得到該參數的估計值 。
1.2 參數法和非參數法:前者需要假定sita的分布狀況,后者則無任何限制。以可信區間的估計方法為例,其基本原理為:當sita的分布近似正態時,可以其均值做點估計,利用正態原理估計Bootstrap可信區間;當sita估計的頻數分布為偏態時,以其中位數做點估計,用上、下2.5%分布數估計95%可信區間。
1.3 抽樣次數的確定:B值取值越大,計算結果越准確,但需要花費的計算時間越長。一般取50-200,保證在1000例以下。
2. 采用秩和檢驗進行分析
3. 用散點圖探討兩變量之間的關聯
第三步,對因變量變換后的建模分析(三種方法)
1. 將變量變化,然后進行單變量分析
1.1 常見的變量變換方法:對數轉換、平方根轉換、平方分反弦轉換、平方變換、倒數變換、Box-Cox變換等等。(cda數據分析師)
1.2 檢驗是否不再明顯偏離正態,可以用PP圖檢驗。
1.3 運用一般線性模型進行變量顯著性檢驗。檢驗結果包括兩部分:變量顯著性檢驗、失擬檢驗(當前模型的預測效果是否存在差異,如果P值大於0.05,因此當前模型不需要再考慮增加任何交互項了。)
2. 秩變換分析
秩變化分析方法,就是先求出原變量的秩次,然后使用求出的秩次代替原變量進行參數分析。
1. 先進行秩變化,選擇要變化的變量,進行秩變化;
2. 將秩變換后的變量進行單變量分析;
3. 利用Cox模型進行分析
1. 生存分析中的幾個概念
事件:指由研究者規定的生存時間的終點,如機器發生故障等。
生存時間:從某一起點開始到所關心事件發生的時間。生存時間是生成分析的對象。例如將轎車的行駛公里數作為生存時間。
刪失:是指由於所關心時間的發生未被觀測到或無法觀測到以致生存時間無法被准確記錄下來的情況。
生存函數與風險函數:用來描述生存時間的分布的兩個主要工具。
用一個非負隨機變量t來表示生存時間,生存函數的定義為隨機變量T越過時間點t的概率。當t=0時,生存函數的取值為1,隨着時間的推移,生存函數的取值逐漸減小。
2. Cox模型的基本結構
2.1 Cox 回歸模型的基本思想是在風險函數與研究因子之間建立類似於廣義線性模型的關聯,這樣就可以直接考察研究因子對風險函數的影響。
2.2 具體操作:分析→生存函數→Cox回歸→將分析因子放入時間列表框、狀態、協變量、分類等都要選好。http://www.cda.cn/view/669.html