描述統計學(基礎知識)


 是數據挖掘的基礎。

  • 數值數據: 用於運算
  • 分類數據:group by, 文本數據。

 

分類數據描述統計

頻數統計:

  • 單純對各個分類計數。count
  • 百分比。

 

數值數據描述統計

  • 統計度量:
    • 平均數
    • 中位數median(比平均數更真實反應情況)。如果平均數<>中位數,代表數值分布有傾斜,更多數值靠近中位數。
    • 眾數,  出現頻率最高的數值。
    • 分位數
    • 標准差
  • 圖形

 

分位數

分位數(英語:Quantile),亦稱分位點,是指用分割點(cut point)將一個隨機變量概率分布范圍分為幾個具有相同概率的連續區間。

分割點的數量比划分出的區間少1,例如3個分割點能分出4個區間。

常用的有中位數(即二分位數)、四分位數(quartile)、十分位數(decile )、百分位數等。q-quantile是指將有限值集分為q個接近相同尺寸的子集。

分位數指的就是連續分布函數中的一個點,這個點對應概率p。

 

四分位數(英語:Quartile

統計學分位數的一種,即把所有數值由小到大排列,然后按照總數量分成四等份,即每份中的數值的數量相同,處於三個分割點位置的數值就是四分位數。

這3個數叫做:

  • 第一四分位數,又稱較小四分位數,等於該樣本中所有數值由小到大排列后第25%的數字。
  • 第二四分位數,又稱中位數,等於該樣本中所有數值由小到大排列后第50%的數字。
  • 第三四分位數,又稱較大四分位數,等於該樣本中所有數值由小到大排列后第75%的數字。

pandas.DataFrame.quantile()numpy.percentile()計算結果一樣。

pandas中有describe方法顯示四分位數。

例子:

>>> ps = pd.DataFrame([1,2,3,4,5,6,7,8,9,10,11,12])
>>> ps.describe()
               0
count  12.000000
mean    6.500000
std     3.605551
min     1.000000
25% 3.750000 #分割點 50% 6.500000 75% 9.250000
max    12.000000

 

>>> ps.quantile(0.25)
0    3.75
 
>>> ps.quantile(0.5)
0    6.5

 

>>> np.percentile(ps, 50)
6.5

 

分析方法中的二八法則,結合分位數來使用。

 

標准差,方差

描述數據離散程度。數據的波動性。

  • 方差:統計中的方差(樣本方差)是每個樣本值與全體樣本值的平均數之差的平方值的平均數
  • 標准差:對方差開跟號。因為方差會消除數據的單位,比如:元,缺少了業務的含義,所以引入標准差。

 

例子:

a=[10,10,10,11,12,12,12]

b=[3,5,7,11,15,17,19]

a和b的中位數和平均數都11,但他們的方差不一樣,a的方差<b的方差。a數據集的離散程度小於b數據集。

均值+/-標准差,這個范圍的數據占了整個數據集的大部分,可以說數值大部分在這個范圍內波動。

闡述:數據集的平均值是m, 大部分在m+/-方差的范圍內波動。

例子:

#還是👆的數據
>>> ps.std()
0    3.605551

 

權重統計--數據標准化之Z-Score標准化

 

Z-Score標准化是標准化的一種。可以發現數據中的趨勢。

(樣本i-均值)/標准差=數據標准化

它們可以通過現有樣本進行估計。在已有樣本足夠多的情況下比較穩定,適合現代嘈雜大數據場景。

 

#附加,mac-numbers使用公式的方法:
1.單元格按=號,右側彈出函數列,選擇函數,然后選擇需要計算的單元格。
2.完成計算后,這個公式可以復制ctr+c, 然后選擇整列,再ctr+v,應用到整列
- 或者點擊單元格,方框正下方有個小黃點,可以下拉。

 

 

切比雪夫定理

19世紀俄國數學家切比雪夫研究統計規律中,論證並用標准差表達了一個不等式,這個不等式具有普遍的意義,被稱作切比雪夫定理,其大意是:
任意一個數據集中,位於其平均數m個標准差范圍內的比例(或部分)總是至少為 1-1/m 2,其中m為大於1的任意正數。對於m=2,m=3和m=5有如下結果:
所有數據中,至少有3/4(或75%)的數據位於 平均數2個標准差范圍內。
所有數據中,至少有8/9(或88.9%)的數據位於平均數3個標准差范圍內。
所有數據中,至少有24/25(或96%)的數據位於平均數5個標准差范圍內  。
 
即隨機數據集合,只有知道平均數和標准差,就知道這個數據集合的大概分布。
 
例子:
某大學100個學生平均成績70分,標准差5分,問有多少學生的成績在60·80分?
答:
60-70=-10
80-70= 10
60/80位於2個標准差。1-1/2=3/4=75%。
所以60~80分的學生至少占75%

 

描述統計的可視化

box箱線圖

用4分位數來表示數據的范圍分布。

  • 箱體表示占一半數量的數值
  • 下四分位數到下邊界,表示1/4數量的數值 (較小數)
  • 上四分位數到上邊界,表示1/4數量的數據 (較大數)

 

上面👆: 50%的價格分布在較小的區域

 

 

 

 

 

直方圖 histogram 

x軸的數據,每個范圍/值都是唯一的。

在統計學中,直方圖是一種對數據分布情況的圖形表示,是一種二維統計圖表,它的兩個坐標分別是統計樣本和該樣本對應的某個屬性的度量,以長條圖的形式具體表現。

因為直方圖的長度及寬度很適合用來表現數量上的變化,所以較容易解讀差異小的數值。

總共有數據1000個,使用參數bins=50, x軸的數據被等分成50份。 

 

 

 

 

 


 

概率

交集和並集

 

 解釋:

A並B,有一部分是重合的,重合部分就是交集。

計算A並B時,多了一塊交集,所以需要減去多出的一塊交集。

 

 

解釋:

用公式和符號表示: 在B已經發生的情況下,A發生的概率。

圓A和B相交的面積/圓B的面積=在B已經發生的情況下,A發生的概率。

 

貝葉斯定理 

 

可以用分析圖來分析:

100000個樣本人:

  • 健康:99900人
    • 試紙查出生病:0.05*99900=4995人
    • 試紙顯示健康:0.95*99900=94905人
  • 發病: 100人
    • 試紙查出生病:0.99*100=99人
    • 試紙顯示健康:0.01*100=1人

所以用試紙查出患者占總樣本人數的 (4995+99)/100000=5.094 %

但實際上這部分查出有病的人中(5094人),有4995人是誤診的。所以查出的這部分人中只有1.943%是真生病的人。

 

先驗概率(歷史經驗)

  • P(A1)表示生病人群的概率:0.1%
  • P(A2)表示健康人群的概率:99.9%

新信息:

 

  • 事件B表示用試紙檢測,並判斷生病。
  • P(B|A1):是真實患者的條件下,試紙查出來是患者的概率:99%
  • P(B|A2):  是健康人群條件下,   試紙誤判是患者的概率:5%

應用貝葉斯定理:

   

求得后驗概率:

  • P(A1|B) 即用試紙檢查出是患者的條件下,是真實患者的概率。1.943%

 

 

例子2

一輛出租車在夜晚肇事之后逃逸,一位目擊證人辨認出肇事車輛是藍色的。已知這座城市 85% 的出租車是綠色的,15% 是藍色的。警察經過測試,認為目擊者在當時可以正確辨認出這兩種顏色的概率是 80%, 辨別錯誤的概率是 20%. 請問,肇事出租車是藍色的概率是多少?

 

注意⚠️如果腦子亂,沒有思路:

  • 紙上畫圖(xmind思維導圖)
  • 假設一個真實的樣本數據。
  •  

     

 

 

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM