1.描述性統計
1.1基礎
1.1 .1數據的類型
定義:數據是為了描述和解釋所搜集、分析、匯總的事實和數字
數據相關概念:
-
個體(記錄,行,觀測值):指搜集數據的實體,比如一個人及其各個特征;
-
變量(列,特征):個體中感興趣的特征,如人的身高、體重等;、
-
總體:關心的全部數據是總體;
-
樣本:為了方便研究從總體中抽取的部分個體組成的對象;
數據的類型:
按不同的分類標准:
-
按測量尺度的不同
-
名義尺度:不可比較大小的文字或數值,如性別:男、女
-
順序尺度:用文字或數值表示,可比較大小但是不能進行四則運算,如學歷:小學,中學、大學
-
間隔尺度:可以用一定固定的度量單位表示數值之間的間隔,可以排序且差值是有意義的,如六年級、五年級、四年級等,可以相減,但比值無意義
-
比率尺度:具有間隔數據的所有性質,且數據之比是有意義的,如身高、體重等
-
-
按是否連續
-
連續型變量:包括間隔尺度和比率尺度
-
離散型變量:包括名義尺度(可以onehot)和順序尺度
-
-
按是否有時間變量
-
截面數據:在相同或近似同一時間點上搜集的數據
-
時間序列數據:在不同時期搜集到的同一類數據
-
1.1.2數據的來源
-
現有數據:內部數據、外部公共渠道獲得或專業渠道購買的數據
-
通過統計研究獲取的數據:如醫學、生物學實驗數據等,或抽樣調查等
獲取到的數據可能存在誤差或錯誤,一定要檢查
誤差的類型包括:<!--可能有錯誤-->
-
抽樣誤差:由於抽樣過程或抽樣設計產生的誤差
-
非抽樣誤差:其他原因產生的誤差
1.1.3 統計研究內容
統計研究內容包括:描述性統計、統計推斷、預測
統計推斷三大核心:抽樣分布、參數估計、假設檢驗
統計預測:線性回歸、時間序列預測、指數合成
1.2描述性統計(圖形)
-
單個變量(展示數據分布)
-
分類變量:
圖形(表):
頻數分布表(頻率分布表、百分比頻率分布)、柱圖(條形圖)、餅圖,
用法:
柱圖和條形圖選擇:類別多時用條形圖
餅圖和柱圖(條形圖選擇):一般用柱圖(條形圖),除非特別強調比重
-
連續變量(數值型):
圖形(表):
頻數分布表(頻率分布表、百分比頻率分布)、直方圖、累積頻數分布(累積頻率分布、累積百分比頻率分布)、莖葉圖、打點圖,
用法:
一般不用后兩個
頻數分布表是分組后計算的,分組的方法有多種,最基本的是:等寬法(固定組距),計算每組的上下限,然后統計組頻數。
累積分布,累積分布用的不多,但是在QQ圖(判斷數據的正態性)中有使用,ROC-AUC曲線的原理中也有用到。
連續型數據直方圖類似於分類數據的柱圖,只是因為數據連續,所以不同柱子之間不分開。
-
-
兩個變量
-
交叉分組表、散點圖和趨勢線、復合條形圖、堆積條形圖和百分比堆積條形圖、時間序列圖(折線)
交叉分組表,行、列分別表示兩個變量類別,交叉點的數據為滿足對應行列的統計量、可以是頻數、也可以是頻率或百分數,
辛普森悖論:從兩個或多個交叉分組表得到的結論與從一個交叉分組表得到的結論可能截然相反,遇到這種情況時,要審查交叉分組表是綜合形式還是未綜合的形式,對綜合形式的表要審查其中是否存在可能影響結論的隱藏變量。
下面是某餐廳一周的評價數據:
下面是拆開后的數據:
從綜合評價看,B餐廳更好,但是從分開午餐和晚餐看,都是A餐廳更好
這是一個加權平均的trick,A餐廳在【84%,89%】,B餐廳在【81%,88%】之間。
散點圖和趨勢線:
散點圖用來展示兩個變量之間的關系,趨勢線是顯示線性相關性的一條直線;相關不一定線性相關;
復合條形圖(堆積條形圖、百分比堆積條形圖):一般不用,看起來太不直觀
時間序列圖:
橫坐標是時間,縱坐標是指標值。
-
1.3 描述性統計(指標)
主要介紹位置、離散程度、形態和相關程度的度量。
如果數據來自樣本,計算的度量為樣本統計量;如果數據來自總體,則計算的度量稱為總體參數。在統計推斷中,樣本統計量是響應總體參數的點估計值。
-
位置的度量
-
平均數:易受極端值的影響
-
加權平均數:各個樣本權重不一致時使用
-
幾何平均數:一般計算年均增長時使用。
-
中位數:處於中間位置的數或兩個中間位置的平均數,在數據中有極端值時,用中位數衡量數據的集中趨勢更好。
-
分位數:四分位數、百分位數,一般四分位數用的比較多,
-
眾數:集合中數量最多的數據,一般對離散型變量
-
-
離散(變異)程度的度量:
-
極差:最大值-最小值,易受極端值的影響
-
四分位間距:IQR=Q3(75%分位數)-Q1(25%分位數),
-
方差:依賴於每個觀測值和平均值之間的差異,量綱為原有量綱的平方。
-
標准差:方差正的平方根。
-
標准差系數(變異系數):標准差/平均數,
-
-
形態的度量
-
偏度:相對於均值的對稱程度,
-
左偏:平均數<中位數,偏度為負值;此時,左側有極小值,極小值會使平均數小於中位數
-
右偏:平均數>中位數,偏度為正值;右偏說明有極大值,極大值會使平均數大於中位數
-
對稱分布:平均數=中位數,偏度為0.
-
-
峰度:與正態分布相比,尖峰值更大則為正,否則為負;正態分布峰度值為0。
-
-
相對位置的度量:
-
z-score:(樣本-平均數)/標准差,衡量樣本和均值的距離有多少個標准差,無量綱,不同總體可比較。
切比雪夫定理:與平均數距離在z個標准差的數據項所占的比例至少為
特殊的,如果數據服從或近似服從正態分布時:
-
大約68%的數據與平均值的距離在一個標准差內;
-
大約95%的數據與平均值的距離在兩個標准差內;
-
幾乎所有的數據與平均值的距離在三個標准差內。
異常值的檢測
-
-
利用3sigma原則:對於近似正態分布的數據,由於所有數據與平均值的距離都在3個標准差內,所以z-score大於3或小於-3的所有數據可視為異常值。
-
-
五數法和箱型圖:
五數:采用Q1-1.5*IQR、25%分位數、50%分位數(中位數)、75%分位數、Q3+1.5*IQR,這五個數來刻畫數據的分布情況
采用箱型圖展示,
-
相關程度的度量
-
協方差:衡量兩個變量的線性相關程度,但是會受到數值本身的影響
-
相關系數:協方差的標准化,不會受到數值本身的影響,范圍在【-1,1】之間,-1表示完全負相關,1表示完全正相關。
-
-