圖解數據分析 | 數據分析的數學基礎


ShowMeAI研究中心

作者:韓信子@ShowMeAI
教程地址https://www.showmeai.tech/tutorials/33
本文地址https://www.showmeai.tech/article-detail/136
聲明:版權所有,轉載請聯系平台與作者並注明出處


一、一維:描述性統計

速查表

描述性統計量分為:集中趨勢、離散程度(離中趨勢)和分布形態。

1.1 集中趨勢

數據的集中趨勢,用於度量數據分布的中心位置。直觀地說,測量一個屬性值的大部分落在何處。描述數據集中趨勢的統計量是:平均值、中位數、眾數。

(1)平均值(Mean)

指一組數據的算術平均數,描述一組數據的平均水平,是集中趨勢中波動最小、最可靠的指標,但是均值容易受到極端值(極小值或極大值)的影響。

(2)中位數(Median)

指當一組數據按照順序排列后,位於中間位置的數,不受極端值的影響,對於定序型變量,中位數是最適合的表征集中趨勢的指標。

(3)眾數(Mode)

指一組數據中出現次數最多的觀測值,不受極端值的影響,常用於描述定性數據的集中趨勢。

1.2 離散程度

數據的離散趨勢,用於描述數據的分散程度,描述離散趨勢的統計量是:極差、四分位數極差(IQR)、標准差、離散系數。

(1)極差(Range)

又稱全距,記作R,是一組數據中的最大觀測值和最小觀測值之差。一般情況下,極差越大,離散程度越大,其值容易受到極端值的影響。

(2)四分位數極差(Inter-Quartile Range, IQR)

又稱內距,是上四分位數和下四分位數的差值,給出數據的中間一半所覆蓋的范圍。IQR是統計分散程度的一個度量,分散程度通過需要借助箱線圖(Box Plot)來觀察。通常把小於 \(Q1-1.5*IQR\) 或者大於 \(Q3+1.5*IQR\) 的數據點視作離群點。

(3)方差(Variance)

方差和標准差是度量數據離散程度時,最重要】最常用的指標。方差,是每個數據值與全體數據值的平均數之差的平方值的平均數,常用 \(\sigma ^{2}\)表示。

\[\sigma^{2} = \frac{\sum \left ( X - \mu \right )^{2}}{N} ​​​​ \]

(4)標准差(Standard Deviation)

又稱均方差,常用 \sigma 表示,是方差的算術平方根。計算所有數值相對均值的偏離量,反映數據在均值附近的波動程度,比方差更方便直觀。

\[\sigma = \sqrt{\frac{\sum \left ( X - \mu \right )^{2} }{N} } \]

(5)離散系數(Coefficient of Variation)

又稱變異系數,為標准差 \sigma 與平均值 \mu 之比,用於比較不同樣本數據的離散程度。離散系數大,說明數據的離散程度大;離散系數小,說明數據的離散程度也小。

\[C_{v} = \frac{\sigma}{\mu} \]

1.3 分布形態

(1)偏度(Skewness)

用來評估一組數據分布呈現的對稱程度。

  • 當偏度系數=0時,分布是對稱的
  • 當偏度系數>0時,分布呈正偏態(右偏)
  • 當偏度系數<0時,分布呈負偏態(左偏)

(2)峰度(Kurtosis)

用來評估一組數據的分布形狀的高低程度的指標。

  • 當峰度系數=0時,是正態分布
  • 當峰度系數>0時,分布形態陡峭,數據分布更集中
  • 當峰度系數<0時,分布形態平緩,數據分布更分散

(3)其他數據分布圖

分位數是觀察數據分布的最簡單有效的方法,但分位數只能用於觀察單一屬性的數據分布。散點圖可以用來觀察雙變量的數據分布,聚類可以用來觀察更多變量的數據分布。通過觀察數據的分布,采用合理的指標,使數據的分析更全面,避免得出像平均工資這類偏離事實的的分析結果。

二、交叉維度

2.1 相關性和線性回歸

更多詳細講解 圖解AI數學基礎 | 概率與統計

(1)相關系數

又稱簡單相關系數,常用 r 表示,反應兩個變量之間的相關關系及相關方向。

(2)線性回歸(Linear Regression)

線性回歸是利用數理統計中回歸分析,確定兩種或兩種以上變量間相互依賴的定量關系。

回歸分析中,只包括一個自變量和一個因變量,且二者的關系可用一條直線近似表示,這種回歸分析稱為一元線性回歸分析。
如果回歸分析中包括兩個或兩個以上的自變量,且因變量和自變量之間是線性關系,則稱為多元線性回歸分析。

2.2 方差分析

(1)單因素方差分析

一項試驗只有一個影響因素,或者存在多個影響因素時,只分析一個因素與響應變量的關系。

(2)多因素有交互方差分析

一項實驗有多個影響因素,分析多個影響因素與響應變量的關系,同時考慮多個影響因素之間的關系。

三、概率論

速查表

更多詳細講解 圖解AI數學基礎 | 概率與統計

3.1 概率事件

(1)獨立事件

\[P\left ( A\cap B \right ) = P(A)P(B) \]

(2)對立事件

\[P(A) = 1 - P(B) \]

(3)互斥事件

\[P\left ( A\cap B \right ) = 0 \]

(4)窮舉事件

\[P\left ( A\cup B \right ) = 1 \]

3.2 條件概率

(1)條件概率

\[P(A \mid B) = \frac{P(AB)}{P(B)} \]

(2)全概率公式

\[P(B) = P(AB) + P(\bar{A} B) = P(A)P(B \mid A) + P(\bar{A} )P(B \mid \bar{A} ) \]

(3)貝葉斯定理

\[P(A \mid B) = \frac{ P(A)P(B \mid A) }{ P(A)P(B \mid A) + P(\bar{A})P(B \mid \bar{A}) } \]

3.3 排列組合

(1)排列

\[P_{n}^{N} = n! \begin{pmatrix} N \\ n \end{pmatrix} = \frac{N!}{ \left (N-n \right )! } \]

(2)組合

\[C_{n}^{N} = \begin{pmatrix} N \\ n \end{pmatrix} = \frac{N!}{n! \left (N-n \right )! } \]

3.4 概率分布

(1)連續型概率分布

正態分布:正態概率分布是連續型隨機變量中最重要的分布,記為

\[x\sim N\left (\mu , \sigma^{2} \right) \]

經驗法則:正態隨機變量有69.3%的值在均值加減個標准差的范圍內,95.4%的值在兩個標准差內,99.7%的值在三個標准差內。

(2)離散型概率分布

  • 伯努利分布

進行一次實驗,若成功則隨機變量取值為1,若失敗則取值為0,成功的概率為p失敗的概率為1-p

  • 二項分布

n個獨立的是/非實驗中,成功次數的概率分布。n=1時,二項分布就是伯努利分布

  • 泊松分布

在連續時間或空間單位上發生隨機事件次數的概率。記為$$$$

四、統計推斷

更多詳細講解 圖解AI數學基礎 | 概率與統計

4.1 抽樣

抽樣:應該滿足抽樣的隨機性原則。
抽樣方法:簡單隨機抽樣、分層抽樣、整群抽樣、系統抽樣

4.2 置信區間

4.3 假設檢驗

資料與代碼下載

本教程系列的代碼可以在ShowMeAI對應的github中下載,可本地python環境運行,能訪問Google的寶寶也可以直接借助google colab一鍵運行與交互操作學習哦!
本系列教程涉及的速查表可以在以下地址下載獲取:

拓展參考資料

  • Pandas可視化教程
  • Seaborn官方教程

ShowMeAI圖解數據分析系列推薦(數據科學家入門)

ShowMeAI系列教程精選推薦


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM