【Tips】:轉載匯總,參考鏈接見最后,強烈建議看看原鏈接,可以收獲很多
1.基本概念
- 平均值:所有數據相加 / 數據個數
- 中位數:將數據升序排列,數據項個數為奇數時取中間數,為偶數時取中間兩數平均值
- 眾數:出現次數最多的數
- 四分位數:數據升序,位於第25%位置的叫做第一四分位數Q1,位於第50%位置的叫做第二四分位數Q2,位於第75%的叫做第三分位數Q3
- 方差:各個數據分別與其平均數之差的平方和的平均數
- 方差越小,數據的離散程度越小,數據越穩定
- 標准差:方差開方
- 頻數分布:表示互不重疊的組別中每一組項目的個數(若是分類,則是每類數據的總數)
- 偏態:數據的分布情況
- 如果平均數大於眾數,稱為正偏態/左偏態;相反,則稱為負偏態/右偏態
- 概率:描述事件發生的可能性,取值在0-1之間
- 排列組合
- 事件:樣本空間的一個子集
- 互斥事件:在試驗中兩個事件A、B不可能同時發生,可能有多於兩種可能
- 獨立事件:事件(A或B)是否發生對事件(B或A)發生的概率沒有影響
- 對立事件:一件事有兩種可能,不是A,就是B
- 條件概率:某個事件A發生的可能性受到另外一個事件B的影響,記作P(A|B)
- 概率公式
- 加法公式:P(A∪B) = P(A)+P(B) - P(A∩B)
- 乘法公式:相互獨立的情況下 P(AB)=P(A)P(B)
- 條件概率:
- 貝葉斯公式:
-
隨機變量:試驗的結果,將每一個可能出現的試驗結果賦予了一個數值,包含離散型隨機變量和連續型隨機變量
- 離散型期望:
- 離散型方差:
- 二項分布(離散型)
- 當我們要計算拋硬幣n次,恰巧有x次正面朝上的概率:
- 期望為E(x) = np,方差Var(x) = np(1-p)
- 當我們要計算拋硬幣n次,恰巧有x次正面朝上的概率:
-
泊松分布(離散型)
- 成立條件是在任意兩個長度相等的區間中,時間發生的概率是相同的,並且事件是否發生都是相互獨立的
- x代表發生x次,u代表發生次數的數學期望,概率函數為:
- 數學期望和方差相等
- 正態分布(連續型)
- u代表均值,σ代表標准差:
- 均值表示正態分布的左右偏移,標准差決定曲線的寬度和平坦,標准差越大曲線越平坦
-
正態隨機變量有69.3%的值在均值加減一個標准差的范圍內,95.4%的值在兩個標准差內,99.7%的值在三個標准差內
- 均值u=0,標准差σ=1的正態分布叫做標准正態分布:
- u代表均值,σ代表標准差:
- 累計分布函數
-
P(X<=x)表示隨機變量小於或者等於某個數值的概率,F(x) = P(X<=x)
- 概率密度函數的積分
-
- 抽樣:通過樣本來推斷總體,抽樣結果提供的僅僅是相應總體特征的估計
- 點估計:把總體的平均值標准差等稱為總體參數,把樣本的種種指標稱為點估計量
- 是樣本標准差,σ是總體標准差。n是樣本,N是總體
- 點估計在原有的符號上加橫線表示,比如樣本均值
,念做x拔
- 樣本均值x拔是一個隨機變量,稱它的概率分布為x拔的抽樣分布
- 每次抽樣得出的不同均值,必然會有一個期望值,E(x拔) = u,E(x拔)就是所有大量抽樣的可能值的均值
- 根據統計學中的中心極限定理,當樣本數足夠時(n>30),x拔的抽樣分布可近似於正態分布
- 無偏估計:當點估計量的期望值等於總體參數時,稱為無偏估計
- 樣本標准差
- 當樣本量占總體5%以上時,有求樣本標准差公式:
- 當樣本量占總體5%以下時,公式可以簡化成:
- 當樣本量占總體5%以上時,有求樣本標准差公式:
- 區間估計
- 通過區間值估計總體情況
- 總體均值的區間估計公式:
- 置信水平:Zσ/2,之所以除2是因為正態分布左右對稱
- 為了獲得更高的置信水平,必然會得到更寬的置信區間
- 假設檢驗
- 對總體參數做一個嘗試性的假設
- 該嘗試性的假設稱為原假設,然后定義一個和原假設完全對立的假設叫做備選假設
- 假設檢驗就是通過樣本數據對兩個對立假設進行檢驗
2.各種定理
(1)切比雪夫定理
- 至少有75%的數據值與平均數的距離在2個標准差以內,至少有89%的數據與平均數在3個標准差之內,至少有94%的數據與平均數在4個標准差以內
- 可以快速掌握數據的范圍
- 如果數據本身符合正態(鍾形)分布
- 68%的數據落在距離平均數1個標准差內,95%的數據值落在距離平均數2個標准差之內,幾乎所有的數據落在3個標准差內
3.圖表相關
(1)箱線圖
- 需要數據:最小值、第一四分位數Q1、中位數、第三四分位數Q3、最大值
- 下邊緣:最小值;上邊緣:最大值
- 定義四分位差IQR=Q3(75%分位數)—Q1(25%分位數),箱線圖的界限在(Q1-1.5IQR,Q3+1.5個IQR)處
- 界限外部所有值均為異常值
- 箱線圖可以讀出數據的整體分布和傾斜趨勢
(2)直方圖
- 標准型:中間高,兩邊低,呈中間的集中趨勢,代表一種穩定正常的形態
- 雙峰型:一般是混合了多種數據源或者類別數據造成的
- 鋸齒型:一般是觀察數據的手段和方法不穩定,才會造成直方圖的波動
- 孤島型:一般是業務上的非正常錯誤,比如工程零部件出了問題、產品出現了某Bug,造成凸出一塊
- 陡壁型:往往是數據源缺失,或者被剔除一部分后,造成這種斷崖式的折斷
- 偏鋒型:分為左偏峰和右偏峰。我們也把它稱呼為偏態,上圖是一個右偏態
參考鏈接
- 描述統計:https://mp.weixin.qq.com/s/watt4veiF3NVw2cBpF3f8w
- 描述統計(2):https://mp.weixin.qq.com/s/waoel4g6vwM1Nsao7qvA7g
- 箱線圖:https://baike.baidu.com/item/%E7%AE%B1%E5%BD%A2%E5%9B%BE/10671164?fromtitle=%E7%AE%B1%E7%BA%BF%E5%9B%BE&fromid=10101649&fr=aladdin
- 對立、互斥事件:https://www.zhihu.com/question/290506686
- 概率論入門:https://mp.weixin.qq.com/s/jjrOg1CoqlYHrWJe3rRPDQ
- 概率分布:https://mp.weixin.qq.com/s/39Bm5voRoAkaoxnaCzR3Ag
- 假設檢驗:https://mp.weixin.qq.com/s/21sSP7lzXEEQhjpw3uc3ag