無限償債之數據分析統計學筆記
統計學的本質
統計分析的目的
收集數據、整理分析數據和由數據得出結論的一組概念、原則和方法
描述統計:利用表格。圖形或者數值(數值特征)來展示和刻畫數據中的信息
推斷統計:利用樣本獲得的數據對總體的性質進行估計或者檢驗,總體的性質通常用概率模型。
統計分析的相關概念
4種測量尺度
定類(nominal)
定序(ordinal)
定比、定距(scale)
定類和定序合並為分類變量
定距和定比合成連續變量。
分類變量的描述方法只能用頻次統計、對於連續變量的描述統計方法即可以使用頻次統計,也可以使用均值,標准差。
均值
算數平均
幾何平均:在計算多年的平均增長率時,復增長率
調和平均:可能用在數據中較多數值聚集在最小值附近,原因可能是因為調和哦英俊相對於算數,幾何最小。
調整平均:是指從上限值和下限值中去掉一定比例后的數據剩下的算數平均值。可以去一定比例的最大值和最小值的原因是因為這些值很可能是異常值。
中位數和眾數
中位數:當一組序列數據之間差異較大時,導致平均值代表性較弱可通過中位數來表示數據的集中趨勢
平均值、中位數通常運用子啊連續變量中,即數值型變量數據;眾數既可以用子啊連續變量也可以用在分類變量。
極差和標准差
衡量離散趨勢,數據離散趨勢代表了數據中包含的信息量。
- 如果希望比較兩種數據的離散趨勢,不能直接比較兩組數據的標准差,因為兩組數據的數量和均值不同。通常選用離散系數進行比較,離散系數等於標准差除以均值
- 標准差計算公式中有的除以n,有的除以n-1,當計算總體數據標准差時除以n,通過樣本數據計算總體標准差時除以n-1,原因是認為增大標准差,以提高代表性。
統計推斷/假設檢驗
抽樣誤差
由個體變異產生的、抽樣造成的樣本統計量與總體參數的差別。原因:
抽樣
個體差異
標准誤差
表示樣本統計量抽樣誤差大小的統計量,計算公式
Z值轉化公式
用來將T分布轉化為(0,1)Z分布,又稱為標准化,或者叫Z值標准化.
Z=(xi-x-)/s用於判斷哪些數值為異常值,Z值的絕對值大於3為異常值,大於5為極端值。
參數估計
定義:用樣本統計量推斷總體參數
點估計:用響應樣本統計量直接作為總體參數的估計值。
區間估計:按照預先給定的概率所確定的包含未知總體參數的一個范圍。
置信度
T=1.65 對應90%的置信度
T=1.98 對應95%的置信度
T=1.98 對應95%的置信度
假設檢驗過程
- 定義H0和H1 H0通常是定義兩個變量之間不存在相關性或沒有顯著差異。
- 選擇合適的檢驗方法,計算統計量
- 根據統計量計算概率P值
- P值與顯著性水平0.05對比,P<0.05,拒絕原假設H0,則接收研究假設H1,反之P>0.05則接收原假設H0拒絕研究假設H1
抽樣調查與普查
抽樣調查特點
花費少
訊速地獲取信息
爭取時效是非常重要的
總體太大,實際上無法實行普查
個別對象難以接觸
科學地抽樣,樣本具有代表性-可以控制抽樣誤差
普查特點
總體較小
總體差異(方差)較大
抽樣誤差較大
誤差:抽樣誤差(可控制);非抽樣誤差(由於人為的差錯引起的誤差,也叫偏差)
抽樣過程
抽樣單元
為了方便地實現隨機抽樣,常常把總體划分為有限個互不重疊的部分,每一部分叫做一個抽樣單元。
抽樣框
一般來說,普查可以提供抽樣框
表現形式名單,地圖、統計年鑒等
很多時候,很難獲得完整的抽樣框資料
抽樣的樣式
概率抽樣
等概率抽樣——所有的樣本單位所出現的機會是相同的
不等概率抽樣——可以計算每個樣本單位所出現的概率。
按隨機/概率規律的原則,從總體中抽取樣本,可以對總體進行推斷
非概率抽樣
所有的樣本單位出現的機會是不確定的
不能計算每個樣本單位所出現的概率,因為選擇樣本的方法是非隨機的。
方便抽樣:利用會議、展覽、商場、街頭抽樣、報刊問卷調查、網絡問卷。
判斷抽樣:依據研究這的主管判斷,選取可以代表總體的個體作為樣本
配額抽樣:按照調查對象的某種屬性或特征,將總體中所有個體分類,然后按照一定比例分別抽取樣本,配額抽樣有可能接近概率抽樣的結果。前提是各類群通知,無需隨機抽樣,類型划分合理;配額符合總體中各類型的分布。
滾雪球抽樣:又稱裙帶抽樣、推薦抽樣、是一種在稀疏總體中尋找受訪者的抽樣方法
簡單隨機抽樣
簡單抽樣方法是指,對所有調查對象編上一連串的號碼,據此名冊隨機抽樣
優點:精度高
缺點:費時費事,進行調查總體范圍廣的訪問調查時,實施費用多
系統抽樣(等距抽樣)
按照一定規律進行抽樣
優點:不費事,不費時
缺點:精度比簡單抽樣方法低,調查總體清單有規律的排列時,抽取出來的可能只是特定性質的樣本
PPS抽樣
這是抽樣單位在2個以上時的抽樣方法,通過縮小區域和調查對象范圍,從大規模的總體中高效地進行抽樣。他是一種使用輔助信息,從而使每個單位均有按其規模大小成比例的被抽中概率的一種抽樣方式。
PSS抽樣實際上是整群抽樣與簡單隨機抽樣或等距抽樣配合的兩階段抽樣。
PSS抽樣是指按概率比例抽樣,屬於概率抽樣中的一種
分層抽樣
分層原則:層內差異小,層間差異大
優點:子總體內抽樣單元之間差異較小,子樣本具有較好的均勻性,可能得到較高精度的估計量
有效消除特殊個體的影響
可對各層的特性加以比較
實施管理方便
如何選擇分層的變量:
選擇那些與研究主題高度相關的變量,比如研究收問題是,考慮學歷、年齡、性別等影響收入的基本屬性;
成本:分層的因素考慮越多選取的樣本量則會越多。學歷(高中低)、收入(高中低)、性別(男女),總共18類,每類樣本量至少保證30人以上,18*30=540人
將與研究主題不太相關主題可以不考慮,或者將因數的分類減少。
區域抽樣
在訪問調查中,由於居民基本登記名冊使用是來不方便,一級抽樣選出街區后,在二級抽樣中抽取樣本,也有用住宅地圖來代替抽樣花名冊的情況。
特征:在沒有調查對象清單的訪問調查中使用
時間抽樣
卡方檢驗
假設檢驗的結論:p值小於0.05 則研究假設成立。反之P值大於0.05 假設不成立。
非參數檢驗的重要性
24 適用於不知道總體參數的校驗,是一種常用的非參數校驗
當不適用參數校驗法時,第一個憲法哦帆軟就是卡方檢驗
卡方檢驗的應用場景
比例分布校驗
檢驗一個變量中取值比例分布是否均勻,或者是否符合定比分布
操作:分析-非參數校驗-就對話框-卡方
原假設:是指變量的取值分布與均勻分布(或研究者設定的分布)沒有顯著差異
研究假設:是指變量的取值分布與均勻分布(或研究者設定的分布)有顯著差異
P<0.05則研究假設成立。
二項式檢驗
檢驗一個變量取二分類兩個值的概率是否符合設定的概率
二項式
分割點:是將一個連續變量,選擇一個值分割大於該值和小於該值
原假設:變量的第一個取值比例與設定的比例沒有顯著差異
研究假設:變量的第一個取值比例與設定的比例沒有顯著差異
Ks檢驗
檢驗樣本來自總體中,一個變量的分布是否服從正態分布,均勻分布,泊松分布,指數分布
原假設:變量來自總體的分布與正態分布(均勻分布等)沒有顯著差異,即變量總體中呈現正態分布
研究假設:變量來自總體的分布與正態分布(均勻分布等)有顯著差異,即變量總體中不呈現正態分布
P<0.05則研究假設成立。
游程校驗
檢驗兩個變量是否隨機
檢驗的場景:通常是檢驗隨着時間變化而產生的兩個數值,出現是否隨機
原假設:變量兩個值出現順序是隨機的
研究假設:變量兩個值出現順序不是隨機的
獨立樣本、配對樣本
獨立樣本:兩組不同重疊的樣本,比如男性和女性在收入。年齡分布上是否有差異檢驗不同人群在特定變量取值上是否有差異
注意:分組變量是分類變量、比較變量是連續變量
配對樣本:非參數檢驗
配對樣本:同一個人不同時間采集兩組或多組數據。
檢驗同一組人群子在不同時間采集的數據是否有效。
注意:t1,t2.比較的變量必須是連續變量不能是分類變量
原假設:兩組來自總體的變量數據分布上沒有差異,即兩組數據在改變量上的取值沒有顯著差異
研究假設:兩組來自總體的變量數據分布上沒有差異,即兩組數據在改變量上的取值有顯著差異
交叉分析(列聯表分析)
檢驗兩個分類變量是否有相關性。
如果場景中需要對連續變量進行卡方校驗,首先需要將連續變量轉換為分類變量,如年齡分為 00 90 80 70
連續變量轉成分類變量的操作: 轉換-重新編碼為不同變量,收入分為0-50/51-400、401-+OO
t檢驗
T檢驗的目的
樣本均值有差異,總體之間確實存在差異的概率是多少
三種應用場景
單樣本均值檢驗
某個變量的樣本均數與給定總體的已知均數相比,其差異是否有顯著差異,檢驗連續變量
原假設:樣本來自總體的變量均值與給定的均值沒有顯著差異
數據要求: 小樣本是來自的總體服從正態分布,如果大樣本或者是數據收集的時候沒有特殊性,可以忽略正態分布的假設。
用到的變量:一個連續變量
操作: 分析比較平均值-單樣本t檢驗
獨立樣本均值檢驗
用來檢驗兩組獨立樣本在某個連續變量的均值是否存在顯著差異
原假設:兩組獨立樣本來自的總體在該變量的均值上沒有顯著差異
數據要求:樣本來自的總體服從正態分布。
兩樣本必須相互獨立,即:抽取其中一批樣本對抽取另一批樣本沒有任何影響,兩組樣本的個體案例數可以不相等
要求兩樣本是大樣本,小樣本必須來自總體。
用到的變量:一個連續變量和一個分類變量(也可以將一個連續變量分組得到一個分組變量)
方差齊性檢驗:
原假設:兩組總體中的方差是相等的
研究假設:兩組總體中的方差是不等的
當P<0.05,則研究假設成立,即兩組總體中的方差是不等的, 需要看第二行的t 反之看第一行
操作: 分析比較平均值-獨立樣本t檢驗
配對樣本均值檢驗
用於檢驗同一組樣本不同時間/部位/處理條件測量得到的兩組數據均值是否存在差異。
原假設:兩組配對數據沒有顯著差異
操作: 分析比較平均值-成對t檢驗
第六節方差檢驗
變量:自變量既可以是分類也可以是連續,因變量必須是連續變量
1單因素方差檢驗
檢驗3組及以上人群在某個連續變量均值上是否存在差異,或某個分類變量對某個連續變量是否存在顯著相關
變量:因變量是一個,且為連續變量,自變量一個,為分類變量
原假設:自變量與因變量之間不存在顯著相關(不同人群之間在該連續變量的均值上沒有顯著差異)
研究假設:自變量與因變量之間存在顯著相關(不同人群之間在該連續變量的均值上有顯著差異)
操作:分析-比較平均值-單因素 ANOVA檢驗
1兩兩比較中根據方差檢驗結果,來選擇方差相符的比較結果或方差不等的檢驗結果
2方差齊性檢驗:選項-方差齊性檢驗。當方差不齊時,則通過非參數檢驗中的K個獨立樣本檢驗法進行檢驗
2多因素方差檢驗
檢驗多個變量在某個連續變量均值上是否存在差異,或某個多個變量對某個連續變量是否存在顯著相關
變量:因變量是一個,且為連續變量,自變量多個,既可以是分類變量也可以為連續變量
原假設:多個自變量與因變量之間不存在顯著相關(不同人群之間在該連續變量的均值上沒有顯著差異)
研究假設:多個自變量與因變量之間存在顯著相關(不同人群之間在該連續變量的均值上有顯著差異)
全因子模型的含義:是考慮所有自變量對於因變量的直接效應,有考慮所有分類變量的交互作用對因變量的影響
定制模型:可根據研究者自身需求,定制需要考慮的對因變量的影響因素。比如只考慮自變量的直接效應,或部分自變量的交互作用。
當自變量特別多時,尤其是分類自變量特別多時,且樣本量不多時,應該使用定制模型。
統計學分析方法
多變量分析方法選擇
1,有因變量,則建立有監督模型
1)因變量為連續變量(建立的模型又稱為回歸預測模型),自變量為連續變量是,可選擇回歸分析,方差分析;自變量為分類變量或分類+連續變量,可選擇帶虛擬變量的回歸分析,聯合分析、方差分析
2)因變量為分類變量(建立的模型又稱為分裂預測模型),自變量為連續變量(或連續+分類時),可選用 判別分析、邏輯回歸等;當自變量全部為分類變量時,可選取對數線性回歸
有監督模型具有倆大通用目的,分析那些自變量量對因變量存在顯著影響作用;通過選擇對因變量存在顯著影響的自變量,建立預測因變量的預測模型
2,無因變量,則建立無監督模型
目的: 對人進行分類; 對變量指標進行分類 ;分析變量與變量之間的測量關系
1)自變量為連續變量時,選擇因子分析(對變量/指標分類)、聚類分析(對人分類、對變量/指標分類)
2)自變量為分類變量時,對應分析(對人類)、多維尺度分析(對人分類)
3、其他分析
1)當模型中需要加入潛在變量(通過多個客觀指標測量的抽象概念),或需要考慮多個變量之間的因果關系是,可以選擇結構方程模型,路勁模型,協方差模型
2)綜合評價:通過多個指標對多個評價對象進行排名,可選擇層次分析法、因子分析等
4、為連續變量
相關系數
1、不同變量類型的相關系數
1)兩個變量都為連續變量,則可用pearso相關系數
2)兩個變量都為定序變量,則可用GMMA等相關系數
3)兩個變量都為定量變量。則可用LAMDA相關系數
4)一個變量為定類變臉,一個變量為連續變量,可通過ETA系數
2、相關系數是衡量兩個變量
偏相關系數
在很多顯示情況,單純的兩個變量之間的相關性,還會收到其他變量的干擾,因此考察兩個變量的相關性時往往需要剔除干擾變量的影響,再來計算相關性比如,商品需求量和價格。消費者收入之間的關系,需求量與價格之間的關系還包括了消費者收入對商品需求量的影響。同時收入對價格也會產生影響,斌通過價格變動傳遞到對商品續期量的影響中。
三個重要相關系數
Person相關系數:參數檢驗,針對兩個都是連續變量的數據進行相關性判斷
Spearman相關系數:非參數檢驗,針對兩個都是定序變量
kendal's tau-b相關系數:非參數檢驗,針對兩個都是定序變量
相關分析的假設檢驗
原假設:兩個變量來自總體中不存在的顯著相關性
研究假設:兩個變量來自總體中存在顯著相關性
顯著性檢驗目的:是用來判斷兩個變量在總體中是否存在相關性
相關系數的目的:是計算兩個變量在樣本中的相關性強弱
操作:分析- 相關-雙變量
偏相關分析
注意:計算相關性的變量為連續變量,加入控制的變量同樣也是連續變量
回歸分析
目的:當需要用一個數學表達式(模型)表示多個因素(原因)與另外一個因素之間的關系時,可選用回歸分析
應用:
·分析那些自變量對因變量存在顯著影響作用,R方值可以不要求大於0.8
·通過選擇對因變量存在顯著影響的自變量,建立預測因變量取值的預測模型,R方值可以必須要求大於等於0.8
但是在人文社科領域很多回歸模型的R方值發不到0.8,也可以用來做預測
回歸分析是研究變量間統計關系的方法。側重考察回歸分析的類型
·因變量與自變量都是定義變量的回歸分析:普通回歸
·因變量是定量變量,自變量中有定性變量的回歸分析:含有啞變量的回歸分析
·因變量是定性變量的回歸分析:logistics回歸分析
回歸分類
根據自變量的個數
一元回歸
多元回歸
根據因變量
連續變量的回歸
分類變量的回歸
根據自變量與因變量的關系
線性回歸
非線性回歸
回歸分析前提
線性趨勢
·自變量和因變量的關系時線性的,如果不是,則不能采用線性回歸分析。可以通過散點圖來加以判斷
獨立性
·因變量y取值相互獨立,之間沒有聯系。反映到模型中要求殘差間相互獨立,不存在自相關,否則采用自回歸模型分析
正態性
·自變量的任何一個線性組合,因變量y均服從正態分布。反映到模型中要求殘差服從正態分布
方差齊性
·自發變量的任何一個線性組合,因變量y的方差均相同,反映發哦模型中要求殘差的方差齊性
回歸分析建立的步驟
選擇變量
因變量:根據研究需求或問題推導出來
自變量:第一:前人的研究成果,第二:個人經驗
確定自變量與因變量之間的關系
首先挨個將自變量與因變量畫散點圖判斷每個自變量與因變量之間的是線性還是非線性。
其次,通過卡方檢驗、t檢驗、f檢驗或相關分析法,挨個分析每個備選的自變量與音變變之間是夠存在顯著的相關性,將與因變量明顯沒有相關性的自變量剔除掉,不加入后期模型中。
選擇對應的線性方程或非線性方程,進行各項參數計算
對模型進行全方位檢驗
第一:多重共線性檢驗,檢驗多個自變量之間是夠存在相關性較高的變量,如有,則保留與因變量相關性最高一個變量。
回歸分析的軟件操作
解決問題:分析影響人們家庭收入因素有哪些,建立預測收入的回歸方程
因變量:家庭收入
自變量:年齡,學歷,性別,工作年限
虛擬變量
原因:分類變量無法參與到回歸模型中的加減乘除運算
操作:將原分類編碼轉為0 1 數值