前言
本小節中的細小知識點很多,需要認真學習,仔細體會。
基礎梳理
頻數分布表,頻率分布表
注意公式及其變形應用,\(頻率=\cfrac{頻數}{樣本容量}\);\(頻數=頻率\times 樣本容量\);
頻率分布折線圖和總體密度曲線
莖葉圖
利用莖葉圖既可以對數據的平均值和方差做定量計算,也可以根據樣本數據的分散與集中程度對數據的平均值和方差做定性分析。
相關計算
樣本數據的數字特征計算:
比如給定一組樣本數據\(2,2,4,4,4\);
則①眾數為4;②中位數為4;
③平均數為\(\bar{x} =\cfrac{2+2+4+4+4}{5}=2\times\cfrac{2}{5}+4\times\cfrac{3}{5}\);
數據與其對應的頻率乘積,再求和;
④方差為\(s^2=\cfrac{1}{5}[(2-3.2)^2\times 2+(4-3.2)^2\times 3]=(2-3.2)^2\times \cfrac{2}{5}+(4-3.2)^2\times \cfrac{3}{5}\);
數據與平均值的差的平方與頻率乘積,再求和;
⑤標准差\(s=\sqrt{(2-3.2)^2\times \cfrac{2}{5}+(4-3.2)^2\times \cfrac{3}{5}}\);
頻率分布直方圖中的數字特征的計算
當一組數據經過加工整理成頻率分布直方圖后,數據信息會有所損失,所以計算數據的數字特征有一定的難度。
①眾數:直方圖中最高矩形的中點橫坐標;
②中位數:頻率分布直方圖頻率和(面積和)的一半處所對應的橫坐標,即面積等分線所對應的橫坐標;
③平均數:每個矩形的分組的中點值乘以每個對應矩形的面積再求和;
④方差:每個矩形的分組的中點值與平均值的差的平方與頻率乘積,再求和;
⑤標准差:方差的算術平方根;
用樣本估計總體的兩層含義
①用樣本的頻率分布估計總體的頻率分布;
②用樣本的基本數字特征估計總體的基本數字特征;
頻率分布直方圖的特點
①直方圖中相鄰兩橫坐標之差表示組距,縱軸表示\(\cfrac{頻率}{組距}\),\(頻率=\cfrac{頻率}{組距}\times 組距\),
②頻率分布直方圖中各小長方形的面積(頻率)之和為\(1\),各小長方形高之比也就是頻率比。
③頻率分布表和頻率分布直方圖是一組數據頻率分別的兩種形式,前者准確,后者直觀。
平均數的計算技巧
比如計算數據\(515,521,527,531,532,536,543,548,558,559\)的平均數。
\(\bar{x}=500+\cfrac{15+21+27+31+32+36+43+48+58+59}{10}=537\);
\(\bar{x}=540+\cfrac{-25-19-13-9-8-4+3+8+18+19}{10}=540+\cfrac{-30}{10}=537\);
給定頻數分布表求平均數
思路一:每個矩形的分組的中點值乘以頻數再求和,最后除以樣本容量;思路二:轉化為頻率分布表再計算;
分組 | 15~25 | 25~35 | 35~45 | 45~55 | 55~65 |
---|---|---|---|---|---|
頻數 | \(5\) | \(5\) | \(25\) | \(15\) | \(10\) |
頻率 | \(\cfrac{5}{60}\) | \(\cfrac{5}{60}\) | \(\cfrac{25}{60}\) | \(\cfrac{15}{60}\) | \(\cfrac{10}{60}\) |
如上表,\(\bar{x}=\cfrac{20\times 5+30\times 5+40\times 25+50\times 15+60\times 10}{60}\)
\(=20\times \cfrac{5}{60}+30\times \cfrac{5}{60}+40\times \cfrac{25}{60}+50\times \cfrac{15}{60}+60\times \cfrac{10}{60}\)
給定頻率分布表求平均數:
如果數據\(x_1\),\(x_2\),\(\cdots\),\(x_n\)在樣本中各自出現的頻率分別是\(p_1\),\(p_2\),\(\cdots\),\(p_n\),則\(\bar{x}\) \(=x_1p_1\) \(+x_2p_2\) \(+\cdots+\) \(x_np_n\);在頻率分布直方圖中,\(x_i\)通常取其所在組的中間值。
平均數、方差、標准差的性質推廣
如果一組樣本數據\(x_1\),\(x_2\),\(\cdots\),\(x_n\),其平均數為\(\bar{x}\),方差為\(s^2\),標准差為\(s\),
則樣本數據\(ax_1+b\),\(ax_2+b\),\(\cdots\),\(ax_n+b\),其平均數為\(a\bar{x}+b\),方差為\(a^2\cdot s^2\),標准差為\(a\cdot s\),
典例剖析
分析:考查一組數據的數字特征的含義的理解;
解析:選\(A\),將一組數據排序后,去掉兩端的極端值,不會影響最中間的中位數[奇數個數據時為最中間的一個,偶數個數據時為最中間的兩個數據的平均數],但一定會影響平均數[數據的平均水平],方差[數據偏離平均水平的程度],和極差[數據的活動范圍],故選\(A\)。
分析:原樣本數據的相關數字特征如下:
\(x_1,x_2,\cdots,x_{10}\)的平均數為\(\bar{x}=\cfrac{x_1+x_2+\cdots+x_{10}}{10}\);
其方差為\(s_1^2=\cfrac{1}{10}[(x_1-\bar{x})^2+(x_2-\bar{x})^2+\cdots+(x_{10}-\bar{x})^2]\);
其標准差為\(s_1=\sqrt{\cfrac{1}{10}[(x_1-\bar{x})^2+(x_2-\bar{x})^2+\cdots+(x_{10}-\bar{x})^2]}=8\);
則新樣本數據的相關數字特征如下:
\(2x_1-1,2x_2-1,\cdots,2x_{10}-1\)的平均數為
\(\bar{x'}=\cfrac{(2x_1-1)+(2x_2-1)+\cdots+(2x_{10}-1)}{10}=2\bar{x}-1\);
【引申】
①如果數據\(x_1\),\(x_2\),\(\cdots\),\(x_n\)的平均數為\(\bar{x}\),則數據\(ax_1+b\),\(ax_2+b\),\(\cdots\),\(ax_n+b\)的平均數為\(a\bar{x}+b\);
其方差為\(s_2^2=\cfrac{1}{10}[(2x_1-1-\bar{x'})^2+(2x_2-1-\bar{x'})^2+\cdots+(2x_{10}-1-\bar{x'})^2]\);
\(=\cfrac{2^2}{10}[(x_1-\bar{x})^2+(x_2-\bar{x})^2+\cdots+(x_{10}-\bar{x})^2]=2^2\cdot s_1^2\)
【引申】
②如果數據\(x_1\),\(x_2\),\(\cdots\),\(x_n\)的方差為\(s^2\),則數據\(ax_1+b\),\(ax_2+b\),\(\cdots\),\(ax_n+b\)的方差為\(a^2\cdot s^2\);
其標准差為\(s_2=\sqrt{\cfrac{1}{10}[(2x_1-1-\bar{x'})^2+(2x_2-1-\bar{x'})^2+\cdots+(2x_{10}-1-\bar{x'})^2]}\);
\(=\sqrt{\cfrac{1}{10}[(2x_1-2\bar{x})^2+(2x_2-2\bar{x})^2+\cdots+(2x_{10}-2\bar{x})^2]}\)
\(=\sqrt{\cfrac{2^2}{10}[(x_1-\bar{x})^2+(x_2-\bar{x})^2+\cdots+(x_{10}-\bar{x})^2]}\)
\(=2\sqrt{\cfrac{1}{10}[(x_1-\bar{x})^2+(x_2-\bar{x})^2+\cdots+(x_{10}-\bar{x})^2]}\)
\(=2\cdot s_1=2\times8=16\),故選\(C\)。
【引申】
③如果數據\(x_1\),\(x_2\),\(\cdots\),\(x_n\)的標准差為\(s\),則數據\(ax_1+b\),\(ax_2+b\),\(\cdots\),\(ax_n+b\)的標准差為\(a\cdot s\),
設樣本數據\(x_1\),\(x_2\),\(\cdots\),\(x_{2018}\)的方差是4,若\(y_i=2x_i-1(i=1,2,\cdots,2018)\),則\(y_1\),\(y_2\),\(\cdots\),\(y_{2018}\)的方差是____________。
分析:其方差為\(s^2=2^2\cdot 4=16\)。
考點:頻率分布直方圖,眾數、中位數、平均數、方差
分析:以上圖為例,
- 求眾數:
“舊養殖法”的眾數為\(47.5\);“新養殖法”的眾數為\(52.5\);
- 求中位數:
“舊養殖法”的中位數先判斷其大概位置,由於\(25-50\)之間的面積和為\(0.62\),25-45之間的面積和為\(0.42\),
故中位數一定位於\(45-50\)之間,設中位數為\(x\),則\(0.42+(x-45)\times0.04=0.50\),求得\(x=47\),即中位數為\(47\)。
- 求平均數:比如“舊養殖法”的平均數的計算
\(\bar{x}=27.5\times5\times0.012+32.5\times5\times0.014+37.5\times5\times0.024\)
\(+42.5\times5\times0.034+47.5\times5\times0.040+52.5\times5\times0.032\)
\(+57.5\times5\times0.020+62.5\times5\times0.012+67.5\times5\times0.012\)
\(=47.1\);
“新養殖法”的平均數的計算
\(\bar{y}=37.5\times5\times0.004+42.5\times5\times0.020+47.5\times5\times0.044\)
\(+52.5\times5\times0.068+57.5\times5\times0.046\)
\(+62.5\times5\times0.010+67.5\times5\times0.008\)
\(=52.35\);
求方差:比如“新養殖法”的方差計算
\(S^2=(37.5-52.35)^2\times 0.004\times 5+(42.5-52.35)^2\times 0.020\times 5+(47.5-52.35)^2\times 0.044\times 5\)
\(+(52.5-52.35)^2\times 0.068\times 5+(57.5-52.35)^2\times 0.046\times 5\)
\(+(62.5-52.35)^2\times 0.010\times 5+(67.5-52.35)^2\times 0.008\times 5\)
\(=?\)
為了考查某校各班參加課外書法小組的人數,從全校隨機抽取\(5\)個班級,把每個班級參加該小組的人數作為樣本數據。已知樣本平均數為7,樣本方差為4,且樣本數據各不相同,則樣本數據中的最大值為【】
法1:不妨設這五個數據分別為\(x_1<x_2<x_3<x_4<x_5\),則有\(\cfrac{x_1+x_2+x_3+x_4+x_5}{5}=7\),\(s^2=\cfrac{1}{5}[(x_1-7)^2+(x_2-7)^2+(x_3-7)^2+(x_4-7)^2+(x_5-7)^2]=4\),
則\((x_1-7)^2+(x_2-7)^2+(x_3-7)^2+(x_4-7)^2+(x_5-7)^2=20\),
很顯然當最大數據\(x_5=12\)時,不滿足;
再代入\(x_5=11\),得到\((x_1-7)^2+(x_2-7)^2+(x_3-7)^2+(x_4-7)^2=4\),
由於樣本數據互不相同,這是不可能成立的;
若樣本數據為\(4,6,7,8,10\),代入驗證知①②式均成立,
此時樣本數據中的最大值為 10.故答案選\(B\).
法2:不妨設這五個數據分別為\(x_1<x_2<x_3<x_4<x_5\),則有\(\cfrac{x_1+x_2+x_3+x_4+x_5}{5}=7\),\(s^2=\cfrac{1}{5}[(x_1-7)^2+(x_2-7)^2+(x_3-7)^2+(x_4-7)^2+(x_5-7)^2]=4\),
則\((x_1-7)^2+(x_2-7)^2+(x_3-7)^2+(x_4-7)^2+(x_5-7)^2=20\),
要使其中一個達到最大,這五個數必須是關於\(0\)對稱分布的,就像“最小二乘法”中要求樣本點要均勻分布在回歸直線的兩側一樣,
而\(9+1+0+1+9=20\),也就是\((-3)^2+(-1)^2+0^2+1^2+3^2=20\),
所以五個班級參加的人數分別為\(4,6,7,8,10\),故最大數字為10。
氣象意義上從春季進入夏季的標志為“連續5天的日平均氣溫均不低於\(22^{\circ}C\)”。現有甲、乙、丙三地連續5天的日平均氣溫的記錄數據(數據都是正整數,單位:\(^{\circ}C\))
①甲地:5個數據的中位數為24,眾數為22;
②乙地:5個數據的中位數為27,均值為24;
③丙地:5個數據中有一個是32,均值為26,方差為10.8;
則滿足進入夏季標志的地區有【】個。
分析:對甲地而言,由於中位數為24,眾數為22;故可以將適合題意的5個數據由小到大排序為22,22,24,25,26;其中前三個數據不能變化,后兩個數據可以變化,但其必須都大於24,且不能相同,故甲地的數據滿足進入夏季的條件;
對乙地而言,由於中位數為27,均值為24;故可以將適合題意的5個數據由小到大排序為18,19,27,28,28;顯然其不滿足進入夏季的條件;
對丙地而言,不妨設32為最大的數據,由於均值為26,故嘗試5個數據為22,22,22,22,32;計算得到均值為24,那么前四個數據中若有小於22的,均值會小於24,故我們調整前4個數據,顯然都應該大於22,此時如我們調整的恰當,必然會得到其均值為26,方差為10.8;故丙地的數據也滿足進入夏季的條件;
綜上所述,滿足進入夏季標志的地區有2個,故選\(C\)。