是數據挖掘的基礎。
- 數值數據: 用於運算
- 分類數據:group by, 文本數據。
分類數據描述統計
頻數統計:
- 單純對各個分類計數。count
- 百分比。
數值數據描述統計
- 統計度量:
- 平均數
- 中位數median(比平均數更真實反應情況)。如果平均數<>中位數,代表數值分布有傾斜,更多數值靠近中位數。
- 眾數, 出現頻率最高的數值。
- 分位數
- 標准差
- 圖形
分位數
分位數(英語:Quantile),亦稱分位點,是指用分割點(cut point)將一個隨機變量的概率分布范圍分為幾個具有相同概率的連續區間。
分割點的數量比划分出的區間少1,例如3個分割點能分出4個區間。
常用的有中位數(即二分位數)、四分位數(quartile)、十分位數(decile )、百分位數等。q-quantile是指將有限值集分為q個接近相同尺寸的子集。
分位數指的就是連續分布函數中的一個點,這個點對應概率p。
四分位數(英語:Quartile)
是統計學中分位數的一種,即把所有數值由小到大排列,然后按照總數量分成四等份,即每份中的數值的數量相同,處於三個分割點位置的數值就是四分位數。
這3個數叫做:
- 第一四分位數,又稱較小四分位數,等於該樣本中所有數值由小到大排列后第25%的數字。
- 第二四分位數,又稱中位數,等於該樣本中所有數值由小到大排列后第50%的數字。
- 第三四分位數,又稱較大四分位數,等於該樣本中所有數值由小到大排列后第75%的數字。
pandas.DataFrame.quantile()和numpy.percentile()計算結果一樣。
pandas中有describe方法顯示四分位數。
例子:
>>> ps = pd.DataFrame([1,2,3,4,5,6,7,8,9,10,11,12]) >>> ps.describe() 0 count 12.000000 mean 6.500000 std 3.605551 min 1.000000 25% 3.750000 #分割點 50% 6.500000 75% 9.250000 max 12.000000
>>> ps.quantile(0.25) 0 3.75 >>> ps.quantile(0.5) 0 6.5
>>> np.percentile(ps, 50) 6.5
分析方法中的二八法則,結合分位數來使用。
標准差,方差
描述數據離散程度。數據的波動性。
- 方差:統計中的方差(樣本方差)是每個樣本值與全體樣本值的平均數之差的平方值的平均數。
- 標准差:對方差開跟號。因為方差會消除數據的單位,比如:元,缺少了業務的含義,所以引入標准差。
例子:
a=[10,10,10,11,12,12,12]
b=[3,5,7,11,15,17,19]
a和b的中位數和平均數都11,但他們的方差不一樣,a的方差<b的方差。a數據集的離散程度小於b數據集。
均值+/-標准差,這個范圍的數據占了整個數據集的大部分,可以說數值大部分在這個范圍內波動。
闡述:數據集的平均值是m, 大部分在m+/-方差的范圍內波動。
例子:
#還是👆的數據 >>> ps.std() 0 3.605551
權重統計--數據標准化之Z-Score標准化
Z-Score標准化是標准化的一種。可以發現數據中的趨勢。
(樣本i-均值)/標准差=數據標准化
它們可以通過現有樣本進行估計。在已有樣本足夠多的情況下比較穩定,適合現代嘈雜大數據場景。
#附加,mac-numbers使用公式的方法: 1.單元格按=號,右側彈出函數列,選擇函數,然后選擇需要計算的單元格。 2.完成計算后,這個公式可以復制ctr+c, 然后選擇整列,再ctr+v,應用到整列 - 或者點擊單元格,方框正下方有個小黃點,可以下拉。
切比雪夫定理
描述統計的可視化
box箱線圖
用4分位數來表示數據的范圍分布。
- 箱體表示占一半數量的數值
- 下四分位數到下邊界,表示1/4數量的數值 (較小數)
- 上四分位數到上邊界,表示1/4數量的數據 (較大數)
上面👆: 50%的價格分布在較小的區域
直方圖 histogram
x軸的數據,每個范圍/值都是唯一的。
在統計學中,直方圖是一種對數據分布情況的圖形表示,是一種二維統計圖表,它的兩個坐標分別是統計樣本和該樣本對應的某個屬性的度量,以長條圖的形式具體表現。
因為直方圖的長度及寬度很適合用來表現數量上的變化,所以較容易解讀差異小的數值。
總共有數據1000個,使用參數bins=50, x軸的數據被等分成50份。
概率
交集和並集
解釋:
A並B,有一部分是重合的,重合部分就是交集。
計算A並B時,多了一塊交集,所以需要減去多出的一塊交集。
解釋:
用公式和符號表示: 在B已經發生的情況下,A發生的概率。
圓A和B相交的面積/圓B的面積=在B已經發生的情況下,A發生的概率。
貝葉斯定理
可以用分析圖來分析:
100000個樣本人:
- 健康:99900人
- 試紙查出生病:0.05*99900=4995人
- 試紙顯示健康:0.95*99900=94905人
- 發病: 100人
- 試紙查出生病:0.99*100=99人
- 試紙顯示健康:0.01*100=1人
所以用試紙查出患者占總樣本人數的 (4995+99)/100000=5.094 %
但實際上這部分查出有病的人中(5094人),有4995人是誤診的。所以查出的這部分人中只有1.943%是真生病的人。
先驗概率(歷史經驗)
- P(A1)表示生病人群的概率:0.1%
- P(A2)表示健康人群的概率:99.9%
新信息:
- 事件B表示用試紙檢測,並判斷生病。
- P(B|A1):是真實患者的條件下,試紙查出來是患者的概率:99%
- P(B|A2): 是健康人群條件下, 試紙誤判是患者的概率:5%
應用貝葉斯定理:
求得后驗概率:
- P(A1|B) 即用試紙檢查出是患者的條件下,是真實患者的概率。1.943%
例子2
一輛出租車在夜晚肇事之后逃逸,一位目擊證人辨認出肇事車輛是藍色的。已知這座城市 85% 的出租車是綠色的,15% 是藍色的。警察經過測試,認為目擊者在當時可以正確辨認出這兩種顏色的概率是 80%, 辨別錯誤的概率是 20%. 請問,肇事出租車是藍色的概率是多少?
注意⚠️如果腦子亂,沒有思路:
- 紙上畫圖(xmind思維導圖)
- 假設一個真實的樣本數據。