爭取每天一更!學習使我進步!學習使我快樂!因為統計學已經學完兩年了 有些忘記了 而且學的是日語教材 和中文對不上號 所以要從新總結一下 !
9.16 fry
第一章 導論
概念
定義1.1 統計學(statistics)收集,分析,表述和解釋數據的科學。
定義1.2 描述統計(descriptive statistics)是研究數據收集,整理和描述的統計學分支。
定義1.3 推斷統計(inferential satatistics)是研究如何利用樣本數據來推斷總體特征的統計學分支。
定義1.4 只能歸於某一類別的非數字型數據,稱為分類數據(catagorical data)
定義1.5 只能歸於某一有序類別的非數字型數據,順序數據(rank data)
定義1.6 按數字尺度測量的觀測值,數值型數據(metric data)
定義1.7 通過調查或觀測而收集到的數據,成為觀測數據(observational data)
定義1.8在實驗中控制實驗對象而收集的數據,成為實驗數據(experimental data)
定義1.9 在相同或相近的時間點上收集的數據,稱為截面數據(cross-sectional data)
定義1.10 在不同時間上收集到的數據,稱為時間序列數據(time-series data)
1.3.1
定義1.11 包含所有研究的全部個體(數據)的集合,稱為總體(population)
定義1.12 從總體中抽取的一部分元素的集合,樣本(sample)
定義1.13構成樣本的元素的數目,樣本容量(sample size)
1.3.2
定義1.14 用來描述總體特征的概括性數字度量,稱為參數(parameter)
定義1.15 用來描述樣本特征的概括性數字度量,稱為統計量(statistic)
1.3.3 變量
定義1.16 說明現象某種特征的概念,稱為變量(variable)
定義1.17 說明事物類別的一個名稱,分類變量(categorical variable)性別,
定義1.18 說明事物有序類別的一個名稱,順序變量(rank variable) 受教育程度,一等品,二等品
定義1.19說明事物數字特征的一個名稱,數值型變量(metric variable)
定義1.20 只能取可數(三聲)值的變量,離散性變量(discrete variable)
定義1.21 可以在一個或多個區間中取任何值的變量,成為連續型變量(continuous variable)
第2章 數據收集
2.1.2數據的直接來源 調查觀察和實驗
統計調查方式
定義2.1 從總體中隨機抽取一部分單位作為樣本進行調查,並根據樣本調查結果來推斷總體特征的數據收集方法,稱為抽樣調查(sampling survey)
定義2.2為特定目的而專門組織的全面調查,稱為普查(census)
定義2.3 按照國家有關法規的規定,自上而下統一布置,自下而上地逐級提供基本統計數據的調查方式,統計報表(statistical report forms)
2 數據的收集方法
問卷邏輯之類的 略
第三章 數據整理與展示
3.1 數據的預處理
3.1.1數據審核
原始數據(raw data)完整性,准確性審核
數據篩選(data filter)
3.1.3 數據排序
遞增 遞減
3.2 分類和順序數據的整理和展示
3.2.1 分類數據的整理與圖示
定義3.1 落在某一特定類別(或組)中的數據個數,稱為頻數(frequency)
定義3.2把各個類別及落在其中的相應頻數全部列出,並用表格形式表現出來,稱為頻數分布(frequency distribution)可用excel統計
分類數據的圖示
條形圖(bar chart)分類數據分布
餅圖(pie chart)各部分所占比例
3.2.2順序數據的整理與圖示
累積頻數和累積頻率
定義3.6 將各有序類別或組的頻數逐級累加起來得到的頻數,稱為累積頻數(cumulative frequencies)=SUM($A$2:A2)
定義3.7將各有序類別或組的百分比逐級累加起來,稱為累積頻率或累積百分比(cumulative percentages)求百分比時候 算出合計絕對引用 =A2/$A$7 ,累計的話如上
2.順序數據的圖示
(1)累積頻數分布圖。(2)環形圖(annular chart)每個環可以分開統計比例
3.3數值型數據的整理與顯示
定義3.8 根據統計研究的需要,將原始數據按照某種標准划分成不同的組別,成為數據分組
定義3.9 分組后的數據稱為 分組數據(grouped data)
定義3.10 把每一個變量值作為一組,稱為單變量值分組。
定義3.11將全部變量值依次划分為若干個區間,並將這一區間的變量值作為一組,稱為組距分組。
定義3.12在組距分組中,一個組的最小值稱為下限(low limit);一個組的最大值稱為上限(uppper limit)。
sturges提出的經驗公式
可以按斯特奇斯(Sturges)提出的經驗公式來確定組數K:

來源:http://wiki.mbalib.com/wiki/組數
-
函數語法:FREQUENCY(data_array,bins_array)。
-
函數語法可以通過Excel 2007的幫助文件查找詳細講解。
-
使用此頻數函數時,第一步建立數據表格中先將樣本數據排成一列。
-
第五步設置完成后不要點擊確定,由於頻數分布是數組操作,所以不能單擊“確定”按鈕,要按“Ctrl+Shift+Enter” 組合鍵。
-
本例是按800~900、900~1000、1000~1100、1100~1200、1200~1300、1300~1400、1400~1500、1500~1600、1600以上,分為9個組進行頻數分析。這就是第五步中【Bins_array】設置的區間。
來自百度經驗
定義3.14 在組距分組時,如果各組的組距相等,稱為等距分組。
定義3.15 在組距分組時,如果各組的組距不相等,稱為不等距分組。
定義3.16每一組的下限和上限之間的中點值,稱為組中值(class midpiont)(下限值+上限值)/2
3.3.2數值型數據的展示
分組數據:直方圖
定義3.17 用矩形的寬度和高度(即面積)來表示頻率分布的圖形,稱為直方圖。(histogram)
2.未分組數據
(1)莖葉圖
定義3.18 由莖,葉兩部分組成的,反應原始數據分布的圖形,(stem-and-leaf display)
可以看出數據分布和離散狀況 是否對稱 是否集中 離群點
莖葉圖是一個與直方圖相類似的特殊工具,但又與直方圖不同,莖葉圖保留原始資料的資訊,直方圖則失去原始資料的訊息。將莖葉圖莖和葉逆時針方向旋轉90度,實際上就是一個直方圖,可以從中統計出次數,計算出各數據段的頻率或百分比。從而可以看出分布是否與正態分布或單峰偏態分布逼近。
另外今天聽了一節可汗學院的統計課 學了箱形圖 看異常值

3 時間序列數據:線圖(line plot)
時間一般在橫軸
4.多變量數據:雷達圖(radar chart)

3.4 統計表
第4章 數據的概括性度量
4.1 數據的集中趨勢(central tendency)和度量
4.1.1分類數據:眾數
定義4.1.1一組數據中出現次數最多的變量值,稱為眾數(mode),用Mo表示。看集中趨勢 數據量越大才有意義
4.1.2順序數據:中位數和分位數
定義4.2 一組數據排序后處於中間位置上的變量值,稱為中位數(median),用Me來表示。

2 分位數
四分位數(quartile),十分位數(decile)和百分位數(percentile)等
定義4.3 一組數據排序后處於25%和75%位置上的值,成為四分位數,四分位點。
4.1.3數值型數據:平均數
定義4.4一組數據相加后除以數據的個數所得的結果。mean
算數平均數
加權平均數(weighted mean)
定義4.5 各個變量值倒數的平均倒數,稱為調和平均數(harmomic mean)
定義4.6 n個變量值乘積的n次方根,成為幾何平均數(geometric mean)
設總體方差為σ2,對於未經分組整理的原始數據,方差的計算公式為:

對於分組數據,方差的計算公式為:

方差的平方根即為標准差,其相應的計算公式為:
未分組數據:
分組數據:
變異系數的計算公式為:

變異系數越小,變異(偏離)程度越小,風險也就越小;反之,變異系數越大,變異(偏離)程度越大,風險也就越大。
例:已知某良種豬場A種成年母豬平均體重為190kg,標准差為10.5kg,而B種成年母豬平均體重為196kg,標准差為8.5kg,試問兩個品種的成年母豬,那一個體重變異程度大。
此例觀測值雖然都是體重,單位相同,但它們的平均數不相同,只能用變異系數來比較其變異程度的大小。
由於,A種成年母豬體重的變異系數:
B種成年母豬體重的變異系數: 
所以,A種成年母豬體重的變異程度大於B種成年母豬。
注意,變異系數的大小,同時受平均數和標准差兩個統計量的影響,因而在利用變異系數表示資料的變異程度時,最好將平均數和標准差也列出。
4.3 偏態與峰態的度量
4.3.1偏態及其測度
定義4.15 數據分布的不對稱性,稱為偏態(shewness)
定義4.16 對數據分布不對稱性的度量值,稱為偏態系數。記作SK。
偏度是利用3階矩定義的,偏度的計算公式為:

式中,Sk——偏度;
μ3——3階中心矩;
σ——標准差。
在一般情形下,當統計數據為右偏分布時,Sk > 0,且Sk值越大,右偏程度越高;當統計數據為左偏分布時,Sk < 0,且Sk值越小,左偏程度越高。當統計數據為對稱分布時,顯然有Sk = 0。
峰度的測定,一般是采用統計動差方法,即以四階中心動差V4為測定依據,將V4除以其標准差的四次方σ4,以消除單位量綱的影響,便於不同次數分布曲線的峰度比較,從而得到以無名數表示的相對數,即為峰度的測定值(β)。計算公式為:

由統計計算分析可知,當次數分布為正態分布曲線時,β = 3,以此為標准就可比較分析各種次數分布曲線的峰度。當β > 3時,表示分布曲線呈尖頂峰度,為尖頂曲線,說明變量值的次數較為密集地分布在眾數的周圍,β值越大於3,分布曲線的頂端越尖峭。當β < 3時,表示分布曲線呈平頂峰度,為平頂曲線,說明變量值的次數分布比較均勻地分散在眾數的兩側,β值越小於3,則分布曲線的頂峰就越平緩。一般當β值接近於1.8時,分布曲線呈水平矩形分布形態,說明各組變量值的次數相同。當β值小於1.8時,次數分布曲線趨向“U”型分布。實際統計分析中,通常將偏度和峰度結合起來運用,以判斷變量分布是否接近於正態分布。
前4章完

