【數據分析】統計學知識匯總(不斷學習中……)


 【Tips】:轉載匯總,參考鏈接見最后,強烈建議看看原鏈接,可以收獲很多

1.基本概念

  • 平均值:所有數據相加 / 數據個數
  • 中位數:將數據升序排列,數據項個數為奇數時取中間數,為偶數時取中間兩數平均值
  • 眾數:出現次數最多的數
  • 四分位數:數據升序,位於第25%位置的叫做第一四分位數Q1,位於第50%位置的叫做第二四分位數Q2,位於第75%的叫做第三分位數Q3
  • 方差:各個數據分別與其平均數之差的平方和的平均數
    • 方差越小,數據的離散程度越小,數據越穩定
  • 標准差:方差開方
  • 頻數分布:表示互不重疊的組別中每一組項目的個數(若是分類,則是每類數據的總數)
  • 偏態:數據的分布情況
    • 如果平均數大於眾數,稱為正偏態/左偏態;相反,則稱為負偏態/右偏態
  • 概率:描述事件發生的可能性,取值在0-1之間
  • 排列組合
  • 事件:樣本空間的一個子集
  • 互斥事件:在試驗中兩個事件A、B不可能同時發生,可能有多於兩種可能
  • 獨立事件:事件(A或B)是否發生對事件(B或A)發生的概率沒有影響
  • 對立事件:一件事有兩種可能,不是A,就是B
  • 條件概率:某個事件A發生的可能性受到另外一個事件B的影響,記作P(A|B)
  • 概率公式
    • 加法公式:P(A∪B) = P(A)+P(B) - P(A∩B)
    • 乘法公式:相互獨立的情況下 P(AB)=P(A)P(B)
    • 條件概率:
    • 貝葉斯公式: 
  •  隨機變量:試驗的結果,將每一個可能出現的試驗結果賦予了一個數值,包含離散型隨機變量和連續型隨機變量

  • 離散型期望
  • 離散型方差
  • 二項分布(離散型)
    • 當我們要計算拋硬幣n次,恰巧有x次正面朝上的概率:

       

       

    • 期望為E(x) = np,方差Var(x) = np(1-p)
  •  泊松分布(離散型)

    • 成立條件是在任意兩個長度相等的區間中,時間發生的概率是相同的,並且事件是否發生都是相互獨立的
    • x代表發生x次,u代表發生次數的數學期望,概率函數為:
    • 數學期望和方差相等
  • 正態分布(連續型)
    • u代表均值,σ代表標准差:
    • 均值表示正態分布的左右偏移,標准差決定曲線的寬度和平坦,標准差越大曲線越平坦
    • 正態隨機變量有69.3%的值在均值加減一個標准差的范圍內,95.4%的值在兩個標准差內,99.7%的值在三個標准差內

    • 均值u=0,標准差σ=1的正態分布叫做標准正態分布:
  • 累計分布函數
    • P(X<=x)表示隨機變量小於或者等於某個數值的概率,F(x) = P(X<=x)

    • 概率密度函數的積分
  • 抽樣:通過樣本來推斷總體,抽樣結果提供的僅僅是相應總體特征的估計
  • 點估計:把總體的平均值標准差等稱為總體參數,把樣本的種種指標稱為點估計量
    • 是樣本標准差,σ是總體標准差。n是樣本,N是總體
    • 點估計在原有的符號上加橫線表示,比如樣本均值,念做x拔
    • 樣本均值x拔是一個隨機變量,稱它的概率分布為x拔的抽樣分布
    • 每次抽樣得出的不同均值,必然會有一個期望值,E(x拔) = u,E(x拔)就是所有大量抽樣的可能值的均值
    • 根據統計學中的中心極限定理,當樣本數足夠時(n>30),x拔的抽樣分布可近似於正態分布
  • 無偏估計:當點估計量的期望值等於總體參數時,稱為無偏估計
  • 樣本標准差
    • 當樣本量占總體5%以上時,有求樣本標准差公式:
    • 當樣本量占總體5%以下時,公式可以簡化成:
  • 區間估計
    • 通過區間值估計總體情況
    • 總體均值的區間估計公式:
  • 置信水平:Zσ/2,之所以除2是因為正態分布左右對稱
    • 為了獲得更高的置信水平,必然會得到更寬的置信區間
  • 假設檢驗
    • 對總體參數做一個嘗試性的假設
    • 該嘗試性的假設稱為原假設,然后定義一個和原假設完全對立的假設叫做備選假設
    • 假設檢驗就是通過樣本數據對兩個對立假設進行檢驗

2.各種定理

(1)切比雪夫定理

  • 至少有75%的數據值與平均數的距離在2個標准差以內,至少有89%的數據與平均數在3個標准差之內,至少有94%的數據與平均數在4個標准差以內
  • 可以快速掌握數據的范圍
  • 如果數據本身符合正態(鍾形)分布
    • 68%的數據落在距離平均數1個標准差內,95%的數據值落在距離平均數2個標准差之內,幾乎所有的數據落在3個標准差內

3.圖表相關

(1)箱線圖

  •  需要數據:最小值、第一四分位數Q1、中位數、第三四分位數Q3、最大值
  • 下邊緣:最小值;上邊緣:最大值
  • 定義四分位差IQR=Q3(75%分位數)—Q1(25%分位數),箱線圖的界限在(Q1-1.5IQR,Q3+1.5個IQR)處
    • 界限外部所有值均為異常值
  • 箱線圖可以讀出數據的整體分布和傾斜趨勢

 (2)直方圖

  

  • 標准型:中間高,兩邊低,呈中間的集中趨勢,代表一種穩定正常的形態
  • 雙峰型:一般是混合了多種數據源或者類別數據造成的

   

 

  • 鋸齒型:一般是觀察數據的手段和方法不穩定,才會造成直方圖的波動
  • 孤島型:一般是業務上的非正常錯誤,比如工程零部件出了問題、產品出現了某Bug,造成凸出一塊

    

 

  • 陡壁型:往往是數據源缺失,或者被剔除一部分后,造成這種斷崖式的折斷
  • 偏鋒型:分為左偏峰和右偏峰。我們也把它稱呼為偏態,上圖是一個右偏態

 

 

 

參考鏈接

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM