一、概率論與統計學
概率論是統計學的基礎,統計學沖鋒在應用第一線,概率論提供武器。
古典概率論
戈爾莫格洛夫創建現代概率論
學會和運用概率,會使人變得更聰明,決策更准確。
二、統計學
統計學可以分為:描述統計學與推斷統計學。
描述統計學:使用特定的數字或圖表來體現數據的集中程度和離散程度。例:每次考試算的平均分,最高分,各個分段的人數分布等,也是描述統計學的范圍。
推斷統計學:根據樣本數據推斷總體數據特征。例:產品質量檢查,一般采用抽檢,根據所抽樣本的質量合格率作為總體的質量合格率的一個估計。
應用:統計學的應用十分廣泛,可以說,只要有數據,就有統計學的用武之地。目前比較熱門的應用:經濟學,醫學,心理學等。
三、集中趨勢
均值:算數平均數,描述平均水平。
例:某次數學考試中,小組A與小組B的成員的乘機分別如下:
A:70,85,62,98,92 B:82,87,95,80,83
分別求出兩組的平均分,並比較兩組的成績。
組A:
組B:
組B的平均分比組A的高,就是組B的總體成績比組A高。
中位數:將數據按大小順序(從大到小或是從小打大都可以)排列后位於中間位置的數。
例:58,32,46,92,73,88,,23
1、先排序:23,32,46,58,73,88,92
2、找出處於中間位置的數:23,32,46,58,73,88,92
若處於中間位置的數據有兩個(也就是數據的總個數為偶數時),中位數為中間兩個數的算術平均數。
眾數:數據中出現最多的數(所占比例最大的數)
一組數據中,可能存在多個眾數,也可能不存在眾數。
1 2 2 3 3 中的眾數是2和3
1 2 3 4 5 中沒有眾數
眾數不僅適用於數值型數據,對於非數值型數據也同樣適用。
{蘋果,蘋果,香蕉,橙,橙,橙,桃},這一組數據,沒有什么均值、中位數可言,但是存在着眾數——橙。
均值、中位數、眾數
四、離散程度的描述
極差:最大值-最小值,簡單地描述數據的范圍大小,極差越大越分散。
方差:在統計學上,更常的是使用方差來描述數據的離散程度——數據離中心越遠越離散。
其中,表示數據集中第 i 個數據的值,
表示數據集的均值。
例:A——1 2 5 8 9
標准差:,有效地避免了因單位平方而引起的度量問題。與方差一樣,標准差的值越大,表示數據越分散。
方差與原數據的單位是不一樣的,這樣的比較是無意義的。為了保持單位的一致性,引入了一個新的統計量——標准差。
五、直方圖
只依賴數字來描述集中趨勢與離散程度,讓人難以對數據產生直觀的印象,這時候就需要用到圖表。
頻數分布表
1、找出最大值與最小值,確定數據的范圍。
2、整理數據,將數據按照成績分為幾組。
3、畫表。
頻數直方圖
根據頻數分布表,可以畫出頻數直方圖。
頻率直方圖
與頻數直方圖相比,頻率直方圖縱坐標有所改變,使用了頻率/組距。
頻率=頻數/總數,組距就是分組的極差。
六、箱線圖
下四分位數:Q1,將所有數據按照從小到大的順序排序排在第25%位置的數字。
上四分位數:Q3,將所有數據按照從小到大的順序排序排在第75%位置的數字。
四分位距:IQR,等於Q3-Q1,衡量數據離散程度的一個統計量。
異常點:小於Q1-1.5IQR或大於Q3+1.5IQR的值。
上邊緣:除異常點以外的數據中的最大值。
下邊緣:除異常點以外的數據中的最小值。
七、莖葉圖
莖葉圖可以在保留全部數據信息的情況下,直觀地顯示出數據的分布情況。
左邊是莖,右邊是葉。
八、線圖
以時間為橫坐標,變量為縱坐標,反映變量隨時間推移的變化趨勢。
九、柱形圖
顯示一段時間內的數據變化或顯示各項之間的比較情況。
十、餅圖
餅圖(餅狀圖),根據各項所占百分比決定在餅圖中的扇形面積,簡單易懂,通俗明了,可以更加形象地看出各個項目所占的比例大小。
,可以更加形象地看出各個項目所占的比例大小。