2019-02-25
15:01:10
前言
各章原則上由下列部分構成:
漫畫部分
補充漫畫部分的解說
例題和解答
總整理
讀者即使僅閱讀漫畫部分,也可逐漸了解統計學概念。如果再閱讀其他部分,則可增加知識掌握的深度。
"統計學可真是有趣而實用呀!"若各位在讀完本書后能有這樣的感受,我將榮幸之至
序章:令人激動的統計學
第一章:確認數據種類
1.分類數據和數值數據
哈密瓜學園物語調查問卷
分為不可測量數據和可測量數據
不可測量的數據稱為“分類數據"
可測量的數據稱為”數值數據"
2.分類數據注意事項舉例
"哈密學的感覺"是“不可測量數據的原因:因為它的數值數據之間並非相等間隔。
3.實務中”非常有趣“-”非常無趣"的運用
然而,實際的消費者問卷調查中,數值數據並不少見。
例題和解答
總整理
數據可分為:分類數據和數值數據
”非常有趣~非常無趣“等,在理論上為分類數據。然而,在實務上,卻經常將其視為數值數據。
第二章:掌握數據整體的形態(數值數據篇)
1.次數分布表和直方圖
組,組中值(組的平均值),次數,相對次數(百分比形式)
次數分布表和直方圖,就是為了讓人能夠直觀地掌握全體數據的形態,而設計出來的。
2.平均數
3.中位數
4.標准差
A和B兩隊平均值相等,A隊隊員的得分散落在高點和低點,但B隊全體隊員的分數都相當接近。像這樣為了表現“離散程度”所使用概念的就是“標准差”
大致上來說,就是表示一組數據“平均離散程度”的指標。標准差最小值為0,而數據的“離散程度”越大,標准差的值就越大。
標准差的算式是:方差開平方(方差中的分母為n),但也有人認為是:(方差中的分母是n-1)方差開平方
其實求總體的標准差就是用n的公式,求樣本的標准差就用后面的公式
但一般而言,求總體的是很困難的,所以大部分都是使用分母為n-1的公式。
5.次數分布表的組距
組距該設為多少,完全依照分析者本身的判斷
你可能會說:以主觀設定的組距而做成的次數分布表並沒有說服力,無法在他人面前公開,難道就沒有按數學原理制定組距的方法嗎?
方法是有的:可以用史特吉斯公式來求解(詳細見書中)
但是用科學的數學原理制成的次數分布表可能還是不會讓人理解,因此,這個方法是否恰當,需重新思考。
因此,以分析者可以接受的組距來處理即可
6.推斷統計學和描述統計學
在序章中,有這樣一段解說:“所謂的統計學,即為從樣本的信息推測總體狀況的學問。”其實這段解說並不恰當。
統計學可分為推斷統計學和描述統計學兩類。序章所說的是前者。那么,后者的描述統計學到底是什么呢?也就是借由整理資料,盡可能簡單明了地顯示出整體狀況為目的的統計學。即,將對象集合視為一個總體的統計學。
描述統計學的解說可能由於過於抽象而讓人難以理解。再舉個例子說明:剛才山本求除了琉衣隊得分的平均數和標准差。他求出此兩者的目的,並非為了推測總體的狀況。以琉衣隊為樣本的總體,究竟是怎樣的總體是不知道的!簡而言之,山本之所以求出平均數和標准差,僅僅是為了簡潔地表示琉衣隊的狀況。這樣的統計學即為描述統計學
總整理
利用“直覺”掌握整體數據的“氛圍”的方法有:次數分布表及直方圖
設定次數分布表的組距可采用史特吉斯公式
用數學原理掌握全體資料“氛圍”(集中趨勢)的方法有:算術平均值,中位數和標准差
當存在過大或過小的數據時,中位數較平均數更能正確地掌握數據狀態
標准差為表示數據“離散程度”的指標
第三章:掌握數據整體的狀態(分類數據篇)
對分類數據做次數分布表
總整理
做出“次數分布表”為掌握數據整體狀態的方法之一
第四章:標准計分和離差
1.標准化和標准計分
因為各個成績的價值可能不同,僅通過標准差和平均值來評價單科成績的價值和不同科目的分數的價值是不行的。
這就需要標准化!
以距離平均數的遠近狀況及資料的“離散程度”作為基礎,將分數的價值轉換成易於討論的數據!
標准化后的數據,稱為“標准計分”
標准計分的公式是:(每一數據)-(平均數)/標准差=標准計分
2.標准計分的特征
標准化后,求出標准計分具有某些特征:
1.無論作為變量的滿分為幾分,其標准計分的平均數勢必為0,而其標准差勢必為1
2.無論作為變量的單位是什么,其標准計分的平均數勢必為0,而其標准差勢必為1
所以通過算出標准計分,那么歷史的是0.88,生物的是1.09。因此,哪一個73分較有價值,我想應該可以很明顯地看出了吧!
3.離差
離差是應用標准計分所得的數值,它的公式是:離差=標准計分*10+50
離差的特征是:
1.無論作為變量的滿分為幾分,其離差的平均數勢必為50,而其標准差勢必為10.
2.無論作為變量的單位是什么,其離差的平均數勢必為50,而其標准差勢必為10.
4.關於離差的解釋
既然兩班的平均數和標准差並不相同,那么兩人的離差值並無可比性
在欲求出離差之際,所使用的平均數與標准差一定不同,因此無法就兩者得出的離差做比較
關於離差的解釋,相當有深度!
總整理:
標准化即為,以距離平均數的遠近程度及數據的“離散程度”(標准差)為基礎,將數據的價值轉換為易於探討的數值。
若執行標准化,則可比較:
滿分不同的變量
單位不同的變量
標准化后的數據稱為標准計分
求離差值必須應用到標准計分
第五章:求機率
1.機率密度函數
直方圖中,將距離縮小至極限后,所得之曲線的公式在統計學上稱為“機率密度函數”
2.正態分布
公式(看書吧):有標准差和平均值哦
這個機率密度函數的圖形,具備以下特征:
以平均值為中心呈左右對稱
收到平均值和標准差的影響
則統計學上,以“x服從平均值為xx,標准差為XX的正態分布"來表述
3.標准正態分布
公式(看書吧):其中標准差為1,平均值為0
在統計學上,不會以”x服從平均值為0,標准差為1的正態分布“來表述,而是會以”x服從標准正態分布“來表述
標准正態分布表,對照此表可以看出面積是多大
所有的標准正態分布的機率密度函數的圖形和橫軸所圍成的面積都是1
正態分布的圖形和橫軸圍成的面積,其比例和機率是相同的。
不僅限於標准正態分布,無論是哪種機率密度函數,面積=比例=機率的關系都是成立的。
4.卡方分布
公式(看書吧):包含自由度的概念
在統計學上,用”x服從自由度為xx的卡方分布"來表示
自由度和斜率一樣,都是會影響圖形形狀的數值。
所以只要自由度的值有所改變,圖形的形狀也會隨之改變。
就像標准正態分布有標准正態分布表一樣,卡方分布也有卡方分布表
所謂的卡方分布表就是記錄了對應這個部分的機率(=面積=比例)P的橫軸刻度卡方值的表
標准正態分布表為記錄對應橫軸刻度的機率的表
卡方分布表是記錄對應機率的橫軸刻度的表
5.t分布
公式(看書吧):其中包含自由度
在統計學上以x服從自由度為xx的t分布來表示
6.F分布
公式(看書吧):其中包含第一自由度和第二自由度
在統計學上以x服從自由度為xx第二自由度為xx的F分布來表述
7.XX分布和Excel
如果不使用標准正態分布表及卡方分布表來計算機率及橫軸的刻度,在電腦尚未普及時,這些計算對個人而言是相當浩大的工程。
現今已經不太使用分布表了。因為利用EXCEL的函數計算功能,便可輕松地求出分布表中的值,不僅如此,比起分布表,EXCEL還可以求出更多種類的值
表5.1 與xx分布相關的函數
總整理
代表性的機率密度函數,可舉出與下列對應者:
正態分布 標准正態分布 卡方分布 t分布 F分布
機率密度函數的圖形和橫軸所圍成的面積為1
機率密度函數的圖形和橫軸所圍成的面積,可視為比例與機率相同
若利用xx分布表 或Excel函數,可求出
對應橫軸刻度的機率
對應機率的橫軸刻度
第六章:雙變量的相關分析 2019-02-28 21:40:49
由於公式較多,見書吧
總整理:
相關系數為表示數值數據和數值數據的關聯程度之指標
相關比為表示數值數據和分類數據的關聯程度之指標
克萊姆相關系數(也可以稱作克萊姆關聯系數或克萊姆V)為表示分類數據和分類數據的相關程度之指標
相關系數,相關比,克萊姆相關系數的特征如下表:
見書
相關系數,相關比和克萊姆相關系數中,在統計學上,並無“其值若在XX以上時,則兩變量的關聯性較強”的標准
第七章:深入理解獨立性檢驗
1.什么是檢驗
所謂的”檢驗“指的是,從樣本的資料推測分析者對於總體所設立是否正確的分析方法!
”檢驗“這個名詞,應該稱為”統計的假說檢驗“
檢驗有很多種類:
獨立性檢驗:推測總體中,”性別“和”希望的表白方式“的克萊姆相關系數的值是否為0
相關比檢驗:推測總體中,”喜歡的服裝品牌“和”年齡“的相關比的值是否為0
無相關檢驗:推測總體中,”1個月使用的化妝品費用“和”1個月使用的置裝費“的相關系數的值是否為0
總體平均數差檢驗:
總體比例差檢驗:
”檢驗“的種類雖然有許多種,但分析的程序卻是一樣的。
”檢驗“的程序:
1.定義總體
2.建立虛無假說(零假設)和對立假說(備擇假設)
3.選擇要進行的”檢驗“種類
4.決定置信水平
5.從樣本資料求出檢驗統計量的值
6.調查步驟5所求的檢驗統計量值,是否在拒絕域中。
7.若步驟6的檢驗統計量在拒絕域中,則結論為”對立假說正確“反正,則結論為:”無法判定虛無假說為錯誤“
2.獨立性檢驗
所謂的”獨立性檢驗“指的是,推測”總體的克萊姆相關系數的值究竟是否為0“的分析方法。
換句話說,就是推測”交叉資料表中兩變量是否相關“的分析方法。
獨立性檢驗也可稱為”卡方檢驗“
皮爾森卡方統計量(在求克萊姆系數時用到)和卡方分布(一種像正態分布的機率密度函數)的關系:
若作為總體的”居住在日本的全體高中生“中,克萊姆相關系數為0,則”實驗中的皮爾森卡方統計量“服從自由度為2的卡方分布
例題:
總體”居住在日本的全體高中生“中,”性別“和”希望的表白方式“的克萊姆相關系數的值是否大於0,也就是”性別“和”希望的表白方式“是否有關聯,請利用獨立性檢驗來預測。此外,我們將置信水平(待后解釋)設為0.05
思考
因此,若總體”居住在日本的全體高中生“的克萊姆相關系數的值為0,則由隨機抽出的300人的資料所求出的X的平方若為5.9915以上的機率,則能在103頁的卡方分布表中清楚得知,其值為0.05
本例題的X的平方在132頁就已計算完畢,其值為8.0091(因為>5.9915,所以它的機率小於0.05,所以拒絕零假設(全體高中生表白與男女無關))。怎么會這樣呢?雖然是由隨機抽出300人的資料所求出的值,看起來似乎還是太高了吧!若以132頁的評論為基礎來思考,總體”居住在日本的全體高中生“的克萊姆相關系數的值大於0的想法,是不是就很自然呢?
不僅限於這個例題(還有數據分析視頻中的驗證性數據分析中的淑女品茶案例),在說明獨立性檢驗時,我會以:
1.暫且解釋為”總體的克萊姆相關系數的值為0“
2.由樣本的資料求出X平方(卡方值)。
3.若X平方(卡方值)過大(>5.9915,因為此時P為0.05,當>5.9915時,P的值會越來越小,這就能證明零假設是錯誤的),則結論為”總體的克萊姆相關系數的值大於0(此時是相關的,因為如果等於0,就認為是無關)。
這樣的流程進行說明,請先記下來。
置信區間一般設為0.05或0.01,采取何者則完全取決於分析者的判斷
解答過程:
1.定義總體:總體=居住在日本的全體高中生
無論是何種“檢驗”,若沒有清楚地定義總體,則易陷於“奇怪!我當初到底想推測什么”的狀況中。陷於這種狀況的分析者並不在少數。請各位務必特別注意這一點。
2.建立虛無假說和對立假說
虛無假說為:總體的克萊姆相關系數的值為0=“性別”和“希望的表白方式”不相關。
對立假說為:總體的克萊姆相關系數的值大於0=“性別”和“希望的表白方式”相關
(關於虛無假說和對立假說,隨后將進行講解)
3.選擇進行的“檢驗”種類:
進行獨立性檢驗
解說:本例題原先就設定為進行獨立性檢驗。因此本例當然不需要步驟3.實際上進行“檢驗”之際,分析者必須選擇符合分析目的的“檢驗”
4.決定置信水平
設定置信水平為0.05
解說:本例題原先就設定置信水平為0.05,因此,本例題也不需要步驟4.實際上進行:“檢驗”之際,分析者必須自己決定置信水平。如同先前所述,置信水平一般會設為0.05或0.01.
5.從樣本資料求出檢驗統計量的值
我想做的是獨立性檢驗,因此檢驗統計量為皮爾森的卡方統計量X平方。本例題中的X平方的值已經在132頁計算過,X平方=8.0091
解說:所謂的檢驗統計量,是指將樣本資料轉換成一個值的公式。
依照所進行“檢驗”的種類不同,檢驗統計量也會有所不同。獨立性檢驗的情況如同上述。采用X平方,而無相關檢驗的情況,則采取別的檢驗統計量。
6.調查步驟5所求出的檢驗統計量值,是否在拒絕域中:
檢驗統計量=8.0091,由於置信水平為0.05(關於如何設定為0.05的需要大量的數學知識,本書不討論),因此,拒絕域根據103頁的卡方分布表得知,其值為“5.9915以上。
解說:拒絕域依置信水平不同而變化,如果本例題中置信水平不是0.05而是0.01,則拒絕域根據103頁的卡方分布表所示,其值為9.2104以上。
7.若步驟6的檢驗統計量值在拒絕域之中,則結論為”對立假說正確“反之,則結論為”無法判定虛無假說為錯誤。
檢驗統計量的值在拒絕域中,因此對立假說為正確。
解說:檢驗統計量即使在拒絕域中,單以“檢驗”並無法給出“對立假說”絕對正確。
但是,只能作虛無假說存在正確的機率,其值最大為置信水平的結果
即使P值小於置信水平,以”檢驗“並無法做出”對立假說絕對正確的結論。只能做出雖然想說對立假說絕對正確,但是只能作虛無假說存在正確的機率為(P值*100)%的結論。
檢驗統計量的值如果不在拒絕域中,似乎可說“虛無假設是正確的呀”可惜的是,並不能這么說,只能說“無法判斷虛無假設為錯誤”而已
因此,當然不可做出“總體的克萊姆相關系數的值大於0"的結論,然而,卻不能斷言”總體的克萊姆相關系數為0“(因為我們一開始就假設克萊姆系數為0)
3.虛無假設和對立假說
4.P值和”檢驗“的順序
為”檢驗“下結論時的根據有:
1.檢驗統計量是否在拒絕域中
2.P值是否小於置信水平
在電腦普及之前,要算出P值可是相當大的工程,現在由於使用EXCEL就可求出P值,所以采用2的情況越來越多
5.獨立性檢驗和齊性檢驗
6.檢驗的結論表現
總整理:
所謂“檢驗”指的是,由樣本數據來推測分析者針對總體所建立的假說是否正確的分析方法
檢驗的正確名稱為統計的假說檢驗
檢驗統計量是將樣本數據轉換為1個數值的公式。
置信水平一般都設為0.05或0.01
拒絕域為對應置信水平的范圍
獨立性檢驗為推測"總體的克萊姆相關系數的值是否為0“的分析方法。也可說是推測”交叉資料表中的兩變量是否有關聯“的分析方法。
若總體的克萊姆相關系數的值為0,則皮爾森卡方統計量X平方為遵守自由度為2的卡方分布。
虛無假說若為真,獨立性檢驗的P值為求出大於或等於本次所求出的皮爾森卡方統計量X平方的機率
在檢驗中,下結論的根據有2種:
1.檢驗統計量是否在拒絕域中
2.P值是否小於置信水平