圖解數據分析 | 數據分析的數學基礎

本文轉載自查看原文 2022-02-25 14:00 730 概率/ 數學/ 圖解數據分析 ◉ 典藏版/ 統計

ShowMeAI研究中心

作者：韓信子@ShowMeAI
教程地址：https://www.showmeai.tech/tutorials/33
本文地址：https://www.showmeai.tech/article-detail/136
聲明：版權所有，轉載請聯系平台與作者並注明出處

一、一維：描述性統計

速查表

http://showmeai.tech/article-detail/100

http://showmeai.tech/article-detail/101

描述性統計量分為：集中趨勢、離散程度（離中趨勢）和分布形態。

1.1 集中趨勢

數據的集中趨勢，用於度量數據分布的中心位置。直觀地說，測量一個屬性值的大部分落在何處。描述數據集中趨勢的統計量是：平均值、中位數、眾數。

（1）平均值（Mean）

指一組數據的算術平均數，描述一組數據的平均水平，是集中趨勢中波動最小、最可靠的指標，但是均值容易受到極端值（極小值或極大值）的影響。

（2）中位數（Median）

指當一組數據按照順序排列后，位於中間位置的數，不受極端值的影響，對於定序型變量，中位數是最適合的表征集中趨勢的指標。

（3）眾數（Mode）

指一組數據中出現次數最多的觀測值，不受極端值的影響，常用於描述定性數據的集中趨勢。

1.2 離散程度

數據的離散趨勢，用於描述數據的分散程度，描述離散趨勢的統計量是：極差、四分位數極差（IQR）、標准差、離散系數。

（1）極差（Range）

又稱全距，記作R，是一組數據中的最大觀測值和最小觀測值之差。一般情況下，極差越大，離散程度越大，其值容易受到極端值的影響。

（2）四分位數極差（Inter-Quartile Range， IQR）

又稱內距，是上四分位數和下四分位數的差值，給出數據的中間一半所覆蓋的范圍。IQR是統計分散程度的一個度量，分散程度通過需要借助箱線圖（Box Plot）來觀察。通常把小於 $Q1-1.5*IQR$ 或者大於 $Q3+1.5*IQR$ 的數據點視作離群點。

（3）方差（Variance）

方差和標准差是度量數據離散程度時，最重要】最常用的指標。方差，是每個數據值與全體數據值的平均數之差的平方值的平均數，常用 $\sigma ^{2}$表示。

\[\sigma^{2} = \frac{\sum \left ( X - \mu \right )^{2}}{N} \]

（4）標准差（Standard Deviation）

又稱均方差，常用 \sigma 表示，是方差的算術平方根。計算所有數值相對均值的偏離量，反映數據在均值附近的波動程度，比方差更方便直觀。

\[\sigma = \sqrt{\frac{\sum \left ( X - \mu \right )^{2} }{N} } \]

（5）離散系數（Coefficient of Variation）

又稱變異系數，為標准差 \sigma 與平均值 \mu 之比，用於比較不同樣本數據的離散程度。離散系數大，說明數據的離散程度大；離散系數小，說明數據的離散程度也小。

\[C_{v} = \frac{\sigma}{\mu} \]

1.3 分布形態

（1）偏度（Skewness）

用來評估一組數據分布呈現的對稱程度。

當偏度系數=0時，分布是對稱的
當偏度系數>0時，分布呈正偏態（右偏）
當偏度系數<0時，分布呈負偏態（左偏）

（2）峰度（Kurtosis）

用來評估一組數據的分布形狀的高低程度的指標。

當峰度系數=0時，是正態分布
當峰度系數>0時，分布形態陡峭，數據分布更集中
當峰度系數<0時，分布形態平緩，數據分布更分散

（3）其他數據分布圖

分位數是觀察數據分布的最簡單有效的方法，但分位數只能用於觀察單一屬性的數據分布。散點圖可以用來觀察雙變量的數據分布，聚類可以用來觀察更多變量的數據分布。通過觀察數據的分布，采用合理的指標，使數據的分析更全面，避免得出像平均工資這類偏離事實的的分析結果。

二、交叉維度

2.1 相關性和線性回歸

更多詳細講解圖解AI數學基礎 | 概率與統計

（1）相關系數

又稱簡單相關系數，常用 r 表示，反應兩個變量之間的相關關系及相關方向。

（2）線性回歸（Linear Regression）

線性回歸是利用數理統計中回歸分析，確定兩種或兩種以上變量間相互依賴的定量關系。

回歸分析中，只包括一個自變量和一個因變量，且二者的關系可用一條直線近似表示，這種回歸分析稱為一元線性回歸分析。
如果回歸分析中包括兩個或兩個以上的自變量，且因變量和自變量之間是線性關系，則稱為多元線性回歸分析。

2.2 方差分析

（1）單因素方差分析

一項試驗只有一個影響因素，或者存在多個影響因素時，只分析一個因素與響應變量的關系。

（2）多因素有交互方差分析

一項實驗有多個影響因素，分析多個影響因素與響應變量的關系，同時考慮多個影響因素之間的關系。

三、概率論

速查表

http://showmeai.tech/article-detail/118

http://showmeai.tech/article-detail/117

更多詳細講解圖解AI數學基礎 | 概率與統計

3.1 概率事件

（1）獨立事件

\[P\left ( A\cap B \right ) = P(A)P(B) \]

（2）對立事件

\[P(A) = 1 - P(B) \]

（3）互斥事件

\[P\left ( A\cap B \right ) = 0 \]

（4）窮舉事件

\[P\left ( A\cup B \right ) = 1 \]

3.2 條件概率

（1）條件概率

\[P(A \mid B) = \frac{P(AB)}{P(B)} \]

（2）全概率公式

\[P(B) = P(AB) + P(\bar{A} B) = P(A)P(B \mid A) + P(\bar{A} )P(B \mid \bar{A} ) \]

（3）貝葉斯定理

\[P(A \mid B) = \frac{ P(A)P(B \mid A) }{ P(A)P(B \mid A) + P(\bar{A})P(B \mid \bar{A}) } \]

3.3 排列組合

（1）排列

\[P_{n}^{N} = n! \begin{pmatrix} N \\ n \end{pmatrix} = \frac{N!}{ \left (N-n \right )! } \]

（2）組合

\[C_{n}^{N} = \begin{pmatrix} N \\ n \end{pmatrix} = \frac{N!}{n! \left (N-n \right )! } \]

3.4 概率分布

（1）連續型概率分布

正態分布：正態概率分布是連續型隨機變量中最重要的分布，記為

\[x\sim N\left (\mu ， \sigma^{2} \right) \]

經驗法則：正態隨機變量有69.3%的值在均值加減個標准差的范圍內，95.4%的值在兩個標准差內，99.7%的值在三個標准差內。

（2）離散型概率分布

伯努利分布

進行一次實驗，若成功則隨機變量取值為1，若失敗則取值為0，成功的概率為p失敗的概率為1-p

二項分布

n個獨立的是/非實驗中，成功次數的概率分布。n=1時，二項分布就是伯努利分布

泊松分布

在連續時間或空間單位上發生隨機事件次數的概率。記為$$$$

四、統計推斷

更多詳細講解圖解AI數學基礎 | 概率與統計

4.1 抽樣

抽樣：應該滿足抽樣的隨機性原則。
抽樣方法：簡單隨機抽樣、分層抽樣、整群抽樣、系統抽樣

4.2 置信區間

4.3 假設檢驗

資料與代碼下載

本教程系列的代碼可以在ShowMeAI對應的github中下載，可本地python環境運行，能訪問Google的寶寶也可以直接借助google colab一鍵運行與交互操作學習哦！
本系列教程涉及的速查表可以在以下地址下載獲取：

拓展參考資料

Pandas可視化教程
Seaborn官方教程

ShowMeAI圖解數據分析系列推薦（數據科學家入門）

ShowMeAI系列教程精選推薦

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Python 數據分析基礎小結 R語言基礎-數據分析及常見數據分析方法 Spark快速大數據分析之RDD基礎大數據分析基礎——維度模型零基礎學習Python數據分析數據分析入門 Titanic數據分析數據分析-分類分析 spark 數據分析之數據清理數據分析(2)——數據的類型和尺度