一、導論
統計應用領域:企業發展戰略、產品質量管理、市場研究、財務分析、經濟預測、人力資源管理。
統計數據的分類:按計量尺度:分類數據、順序數據、數值型數據(★)
按收集方法:觀測數據、實驗數據
按時間狀況:截面數據、時間序列數據
二、數據的搜集
數據來源:調查或實驗
調查方法分類:概率抽樣:簡單隨機抽樣、分層抽樣、整群抽樣、系統抽樣、多階段抽樣
非概率抽樣:方便抽樣、判斷抽樣、自願樣本、滾雪球抽樣、配額抽樣
搜集數據的基本方法:自填式、面訪式、電話式、觀察式
數據的誤差:抽樣誤差
非抽樣誤差:抽樣框誤差、回答誤差、無回答誤差、調查員誤差、測量誤差
三、數據的圖標展示
數據的預處理:數據審核、篩選、排序
品質數據包括分類數據和順序數據,做分類整理
分類數據:計算頻數與頻數分布,或比例、比率等。圖示有條形圖、帕累托圖、餅圖、環形圖
順序數據:累積頻數與累積頻率。圖示分類圖示+累積頻數分布或頻率圖
數值型數據做分組整理,有單變量值分組和組距分組兩種,組距分組包括等距分組和不等距分組
圖示:分組數據——直方圖、未分組數據——莖葉圖和箱線圖、時間序列數據——線圖、多變量數據——(散點圖、氣泡圖、雷達圖)
四、數據的概括性度量
數據分布特征:集中趨勢的度量:分類數據——眾數,順序數據——中位數、四分位數,數值型數據——平均數
離散程度的度量:分類數據——異眾比率,順序數據——四分位差,數值型數據——極差、平均差、方差和標准差
相對位置的度量經驗法則:數據對稱分布時,68%--正負1個標准差,95%--正負2個標准差,99%--正負3個標准差
切比雪夫不等式,75%--正負2個標准差,89%--正負3個標准差,94%--正負4個標准差
分布形狀偏態與峰態的度量:偏態系數SK:SK=0數據對稱,SK>1或<-1高度偏態分布,SK在0.5~1或-1~-0.5之間中等偏態分布
峰態系數K:K=0正態分布,K>0尖峰分布,K<0扁平分布
五、概率與概率分布
隨機變量:離散型隨機變量和連續型隨機變量
六、統計量及其抽樣分布
常用統計量:均值、樣本方差、樣本變異系數、樣本k階矩、樣本k階中心矩、樣本偏度、樣本峰度
抽樣分布:卡方分布、t分布、F分布
中心極限定理
七、參數估計
參數估計分為點估計和區間估計
評價估計量的標准:無偏性、有效性、一致性
一個總體參數的區間估計:均值:大樣本:z分布
小樣本:正態總體方差已知:z分布
正態總體方差未知:t分布
比例:大樣本:z分布
方差:卡方分布
兩個總體參數的區間估計:均值差:獨立大樣本:方差均已知:z分布
方差均未知:z分布
獨立小樣本——正態總體:方差均已知:z分布
方差未知:σ1=σ2:t分布;σ1≠σ2:t分布
比例差:獨立大樣本:z分布
方差比:F分布
八、假設檢驗
假設檢驗流程:提出原假設與備擇假設;確定適當的檢驗統計量並計算其數值;進行統計決策
單側檢驗:左單側檢驗(也稱下限檢驗)和右單側檢驗(上限檢驗)
一個總體參數的檢驗:大樣本:z統計量
小樣本:總體標准差已知:z統計量 總體標准差未知:t統計量
兩個總體參數的檢驗:均值之差:大樣本:z統計量 小樣本且方差未知:t統計量
比例之差:z統計量
方差比:F統計量
九、分類數據分析
分類數據的結果是頻數,卡方檢驗是對分類數據的頻數進行分析的統計方法
卡方統計量可以對分類數據進行擬合優度檢驗和獨立性檢驗(列聯檢驗)
列聯表中相關系數:φ相關系數、列聯相關系數、V相關系數
十、方差分析
誤差分解:SST=SSE+SSA SST總平方和、SSE誤差平方和或殘差平方和(組內誤差)、SSA因素平方和(組間誤差)
基本假定:每個總體都服從正態分布、每個總體的方差必須相同、觀測值是獨立的
分析步驟:提出假設 H0:μ1=μ2=...=μk 自變量對因變量沒有顯著影響
構造檢驗的統計量:計算各樣本均值——計算全部觀測值的總均值——計算各誤差平方和——計算統計量,即MSA和MSE,F=MSA/MSE
作出統計決策 確定α,若F>Fα,則拒絕原假設
分為單因素方差分析和雙因素方差分析,雙因素方差分析又分為無交互作用的雙因素方差分析和有交互作用的方差分析
關系強度的測量:R2
十一、一元線性回歸
數值型自變量和數值型因變量之間關系的分析方法,就是相關與回歸分析
分類:處理變量多少——兩個變量之間:簡單相關與簡單回歸分析
——兩個以上變量:多元相關與多元回歸分析
變量之間關系形態:線性相關與線性回歸分析、非線性相關和非線性回歸分析
相關關系對總體假定:兩個變量之間是線性關系;兩個變量都是隨機變量
在進行相關分析時,首先需要繪制散點圖來判斷變量之間的關系形態,如果是線性關系,則利用相關系數來測度兩個變量之間的關系強度,再對相關系數進行顯著性檢驗,以判斷樣本所反映的關系能否代表兩個變量總體上的關系:
——散點圖:在線性相關中,兩個變量變動方向相同稱為正相關;兩個變量變動方向相反稱為負相關
——相關系數:若根據總體全部數據計算的稱為總體相關系數ρ,根據樣本數據計算的稱為樣本相關系數r(也稱線性相關系數或pearson相關系數)
相關系數性質:r取值[-1,1];r具有對稱性;r大小與x和y的原點及尺度無關;r不能用於描述非線性關系
經驗值:|r|≥0.8時視為高度相關;0.5≤|r|<0.8時視為中度相關;0.3≤|r|<0.5時視為低度相關,|r|<0.3可視為不相關
——相關關系的顯著性檢驗:首先考察r的抽樣分布,再對r的顯著性進行檢驗:提出假設、計算檢驗統計量、進行決策
...未完
