總體,個體,抽樣,樣本,樣本容量


 

開博第一篇先回顧下數據分析涉及到的統計學中最基本的概念,包含了以下幾個概念:總體,個體,抽樣,樣本,樣本容量。
 
1 總體
本小節所探討的總體的概念,特指在統計學中的“總體”。統計學中的“總體”,或稱統計總體(population),簡稱總體,指要調查或統計某一現象或事物全部數據的集合。
例如,我們要統計具有中華人民共和國國籍的中國公民(這里簡稱中國人)的年齡,那么所有中國人的年齡,就是我們研究和統計的總體;再例如,我們要統計國內互聯網從業人員的年薪,那么這些國內互聯網從業人員的年薪,就是我們研究的總體;再例如,淘寶公布的“女人胸越大越敗家”的調查結論,我們要分析女人胸的大小與敗家的相關性,那么所有在淘寶上有購買胸罩的女人的購買記錄(包括購買的胸罩的大小,以及此購買人最近一年或半年的總消費額),就可以作為我們研究的總體。
 
總體有三個性質,以下作一個簡單的說明,並以“女人胸越大越敗家”做例子講解。
(1) 大量性,是指需要研究的總體的數目巨大。例如研究“女人胸越大越敗家”,就需要淘寶上所有購買胸罩的女人的交易記錄。
(2) 同質性,是指總體中研究的每一個數據(也稱個體)彼此之間有相同的性質,例如因為是淘寶公布的結論,所以研究數據都是取自淘寶,也即是在淘寶上的消費記錄,而非京東;並且這些購買記錄中都有消費胸罩這一項,不能拿購買褲子的記錄與購買胸罩的數據分析。
(3) 變異性,是總體中研究的每一個數據之間,也是有差異的。例如每條購買記錄是不同的人操作,都買了不完全相同的胸罩大小,有不同的消費額,特定的某一個數據(個體),其總消費金額也是有差異的等等。
 
2 個體
個體,指需要研究的總體中一個特定的主體。
以探討總體時舉的例子,我們要統計具有中華人民共和國國籍的中國公民(這里簡稱中國人)的平均年齡,那么總體中的一個主體,或者說一個數據,例如題主的年齡--26歲,就是在這個總體--所有中國人的年齡--中的一個樣本;同理,某一個特定的互聯網從業人員,如某個阿里數據分析師的工資,也是國內互聯網從業人員的年薪中的一個特定的主體,也即個體;同理,每一個購買胸罩的消費記錄(和前兩個例子中的年齡和工資等一維數據構成一個個體不同,購買記錄可能會包含多維數據,例如:胸罩大小,此購買人最近一年或半年的總消費額等,這些多維數據共同構成了一個研究的個體),就成為了我們研究女人胸的大小與敗家的相關性中的一個個體。
 
3 抽樣
舉一個例子,要檢驗某食品的出廠合格率,理想的做法,是打開所有總體--食品--的包裝,檢測總體中每一個個體--也即具體的每一盒食品--是否合格,再計算出出廠合格率。但這顯然是不現實的,因為打開所有包裝並檢查的成本過大。
這時我們需要從總體中抽選部分個體構成一個集合(也成為樣本,樣本中個體的數目小於總體數目),如果抽取的集合中的個體能較全面,無偏地反映出總體的信息,就可以認為該抽樣是有效的。
抽樣按照個體是否放回可以分為有放回抽樣和無放回抽樣,有放回抽樣指從總體中抽取一個個體並記錄該抽樣結果后,再將該個體放回至總體中;無放回抽樣指從總體中抽取一個個體並記錄該抽樣結果后,不再放回該個體。二者區別就在於,有放回抽樣可能抽取重復的個體,而在無放回抽中不存在這種情況。
按具體的抽樣方法分類,可以分為簡單隨機抽樣,分層抽樣,比例抽樣,等距抽樣,系統抽樣等。
 
4 樣本,樣本容量
樣本是總體的一部分,它是由從總體中按一定程序抽選出來的那部分總體單位--也即個體--所組成的集合。那么這個集合中,個體的數目稱為樣本容量。
例如統計國內互聯網從業人員的年薪,我們經過抽樣獲得了淘寶,百度,騰訊等互聯網公司從業人員的10000條薪資記錄,那么這10000條薪資記錄就構成了我們研究的一個樣本,10000為該樣本的樣本容量。同理,分析女人胸的大小與敗家的相關性,經過抽樣獲得的5000條消費記錄,就構成了一個樣本,5000為該樣本的樣本容量。
那么樣本與抽樣的關系,就可以理解為抽樣是過程,抽得的樣本是結果。最終得到的樣本,也需要盡量能全面地反映出總體的特性,例如統計國內互聯網從業人員的年薪,如果只統計了淘寶,百度,騰訊三家公司,肯定是不能代表整個互聯網從業人員的年薪,因此可以認為該樣本並不是能有效反映總體的抽樣樣本。
 
最后用一個例子作為今天講解概念的總結:
要研究一所擁有10000名學生的大學中,學生的平均身高。我們從10000名學生中隨機抽取了100名學生作為調查對象,那么:
1 總體:10000名學生的平均身高;
2 個體:某一個學生的身高,例如,學號為00001的學生的身高;
3 抽樣:從10000名學生中隨機抽取了100名學生作為調查對象(樣本)的過程;
4 樣本:抽取的100名學生的身高數據;
5 樣本容量:100
 
 
*******************************************************************
版權所有,轉載請注明出處
歡迎大家就數據分析、數據挖掘相關問題與我溝通交流。
E-mail:humengnju@sina.com
*******************************************************************
 
 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM