作者:韓信子@ShowMeAI
教程地址:https://www.showmeai.tech/tutorials/33
本文地址:https://www.showmeai.tech/article-detail/136
聲明:版權所有,轉載請聯系平台與作者並注明出處
一、一維:描述性統計
速查表
描述性統計量分為:集中趨勢、離散程度(離中趨勢)和分布形態。
1.1 集中趨勢
數據的集中趨勢,用於度量數據分布的中心位置。直觀地說,測量一個屬性值的大部分落在何處。描述數據集中趨勢的統計量是:平均值、中位數、眾數。
(1)平均值(Mean)
指一組數據的算術平均數,描述一組數據的平均水平,是集中趨勢中波動最小、最可靠的指標,但是均值容易受到極端值(極小值或極大值)的影響。
(2)中位數(Median)
指當一組數據按照順序排列后,位於中間位置的數,不受極端值的影響,對於定序型變量,中位數是最適合的表征集中趨勢的指標。
(3)眾數(Mode)
指一組數據中出現次數最多的觀測值,不受極端值的影響,常用於描述定性數據的集中趨勢。
1.2 離散程度
數據的離散趨勢,用於描述數據的分散程度,描述離散趨勢的統計量是:極差、四分位數極差(IQR)、標准差、離散系數。
(1)極差(Range)
又稱全距,記作R,是一組數據中的最大觀測值和最小觀測值之差。一般情況下,極差越大,離散程度越大,其值容易受到極端值的影響。
(2)四分位數極差(Inter-Quartile Range, IQR)
又稱內距,是上四分位數和下四分位數的差值,給出數據的中間一半所覆蓋的范圍。IQR是統計分散程度的一個度量,分散程度通過需要借助箱線圖(Box Plot)來觀察。通常把小於 \(Q1-1.5*IQR\) 或者大於 \(Q3+1.5*IQR\) 的數據點視作離群點。
(3)方差(Variance)
方差和標准差是度量數據離散程度時,最重要】最常用的指標。方差,是每個數據值與全體數據值的平均數之差的平方值的平均數,常用 \(\sigma ^{2}\)表示。
(4)標准差(Standard Deviation)
又稱均方差,常用 \sigma 表示,是方差的算術平方根。計算所有數值相對均值的偏離量,反映數據在均值附近的波動程度,比方差更方便直觀。
(5)離散系數(Coefficient of Variation)
又稱變異系數,為標准差 \sigma 與平均值 \mu 之比,用於比較不同樣本數據的離散程度。離散系數大,說明數據的離散程度大;離散系數小,說明數據的離散程度也小。
1.3 分布形態
(1)偏度(Skewness)
用來評估一組數據分布呈現的對稱程度。
- 當偏度系數=0時,分布是對稱的
- 當偏度系數>0時,分布呈正偏態(右偏)
- 當偏度系數<0時,分布呈負偏態(左偏)
(2)峰度(Kurtosis)
用來評估一組數據的分布形狀的高低程度的指標。
- 當峰度系數=0時,是正態分布
- 當峰度系數>0時,分布形態陡峭,數據分布更集中
- 當峰度系數<0時,分布形態平緩,數據分布更分散
(3)其他數據分布圖
分位數是觀察數據分布的最簡單有效的方法,但分位數只能用於觀察單一屬性的數據分布。散點圖可以用來觀察雙變量的數據分布,聚類可以用來觀察更多變量的數據分布。通過觀察數據的分布,采用合理的指標,使數據的分析更全面,避免得出像平均工資這類偏離事實的的分析結果。
二、交叉維度
2.1 相關性和線性回歸
更多詳細講解 圖解AI數學基礎 | 概率與統計
(1)相關系數
又稱簡單相關系數,常用 r 表示,反應兩個變量之間的相關關系及相關方向。
(2)線性回歸(Linear Regression)
線性回歸是利用數理統計中回歸分析,確定兩種或兩種以上變量間相互依賴的定量關系。
回歸分析中,只包括一個自變量和一個因變量,且二者的關系可用一條直線近似表示,這種回歸分析稱為一元線性回歸分析。
如果回歸分析中包括兩個或兩個以上的自變量,且因變量和自變量之間是線性關系,則稱為多元線性回歸分析。
2.2 方差分析
(1)單因素方差分析
一項試驗只有一個影響因素,或者存在多個影響因素時,只分析一個因素與響應變量的關系。
(2)多因素有交互方差分析
一項實驗有多個影響因素,分析多個影響因素與響應變量的關系,同時考慮多個影響因素之間的關系。
三、概率論
速查表
更多詳細講解 圖解AI數學基礎 | 概率與統計
3.1 概率事件
(1)獨立事件
(2)對立事件
(3)互斥事件
(4)窮舉事件
3.2 條件概率
(1)條件概率
(2)全概率公式
(3)貝葉斯定理
3.3 排列組合
(1)排列
(2)組合
3.4 概率分布
(1)連續型概率分布
正態分布:正態概率分布是連續型隨機變量中最重要的分布,記為
經驗法則:正態隨機變量有69.3%的值在均值加減個標准差的范圍內,95.4%的值在兩個標准差內,99.7%的值在三個標准差內。
(2)離散型概率分布
- 伯努利分布
進行一次實驗,若成功則隨機變量取值為1,若失敗則取值為0,成功的概率為p失敗的概率為1-p
- 二項分布
n個獨立的是/非實驗中,成功次數的概率分布。n=1時,二項分布就是伯努利分布
- 泊松分布
在連續時間或空間單位上發生隨機事件次數的概率。記為$$$$
四、統計推斷
更多詳細講解 圖解AI數學基礎 | 概率與統計
4.1 抽樣
抽樣:應該滿足抽樣的隨機性原則。
抽樣方法:簡單隨機抽樣、分層抽樣、整群抽樣、系統抽樣
4.2 置信區間
4.3 假設檢驗
資料與代碼下載
本教程系列的代碼可以在ShowMeAI對應的github中下載,可本地python環境運行,能訪問Google的寶寶也可以直接借助google colab一鍵運行與交互操作學習哦!
本系列教程涉及的速查表可以在以下地址下載獲取:
拓展參考資料
- Pandas可視化教程
- Seaborn官方教程
ShowMeAI圖解數據分析系列推薦(數據科學家入門)
- 圖解數據分析(1) | 數據分析介紹
- 圖解數據分析(2) | 數據分析思維
- 圖解數據分析(3) | 數據分析的數學基礎
- 圖解數據分析(4) | 核心步驟1 - 業務認知與數據初探
- 圖解數據分析(5) | 核心步驟2 - 數據清洗與預處理
- 圖解數據分析(6) | 核心步驟3 - 業務分析與數據挖掘
- 圖解數據分析(7) | 數據分析工具地圖
- 圖解數據分析(8) | Numpy - 統計與數據科學計算工具庫介紹
- 圖解數據分析(9) | Numpy - 與1維數組操作
- 圖解數據分析(10) | Numpy - 與2維數組操作
- 圖解數據分析(11) | Numpy - 與高維數組操作
- 圖解數據分析(12) | Pandas - 數據分析工具庫介紹
- 圖解數據分析(13) | Pandas - 核心操作函數大全
- 圖解數據分析(14) | Pandas - 數據變換高級函數
- 圖解數據分析(15) | Pandas - 數據分組與操作
- 圖解數據分析(16) | 數據可視化原則與方法
- 圖解數據分析(17) | 基於Pandas的數據可視化
- 圖解數據分析(18) | 基於Seaborn的數據可視化
ShowMeAI系列教程精選推薦
- 大廠技術實現方案系列
- 圖解Python編程:從入門到精通系列教程
- 圖解數據分析:從入門到精通系列教程
- 圖解AI數學基礎:從入門到精通系列教程
- 圖解大數據技術:從入門到精通系列教程
- 圖解機器學習算法:從入門到精通系列教程
- 機器學習實戰:手把手教你玩轉機器學習系列
- 深度學習教程:吳恩達專項課程 · 全套筆記解讀
- 自然語言處理教程:斯坦福CS224n課程 · 課程帶學與全套筆記解讀
- 深度學習與計算機視覺教程:斯坦福CS231n · 全套筆記解讀