3分鍾,看懂區間估計and置信區間


大家好,我是愛學習的小xiong熊妹。
很多小伙伴想知道:做數據分析,到底要懂多少統計學?小熊妹很認真地做一個懶人攻略,不講復雜的理論,直接講實際操作,希望能幫助到大家哦。
如果要講統計學,第一個概念要從區間估計講起,這是后續很多方法的基礎。
一聽:“區間估計”的名字,很多小伙伴會一腦袋問號:

  1.  為什么要“估計”

  2.  為什么還要有“區間”

今天的分享就從這里開始

一:什么是“估計”

“估計”是指用抽樣的數據估計全體的數據情況。之所以這么做,是因為很多時候,想全體采集數據太難了!比如生產真空包裝雞腿的企業,要檢查質量,就得把包裝拆開,那雞腿就不能再賣了。這是多大的損失呀!所以必須抽樣。
如果直接用抽樣數據代表全體數據,就是所謂:點估計。
常見的點估計指標有2個:平均值:比如抽樣雞腿的平均重量為150克。比例:比如抽樣雞腿的衛生合格率為99.9%。
但是,直接這么做會有問題,就是:抽樣對象不同,點估計值經常有差異。為了解決這個問題,有了區間估計的做法

二:什么是“區間估計”

通俗地講:區間估計是在點估計的基礎上,給一個合理取值范圍。
比如:抽樣雞腿的平均重量為150克,是一個點估計值。抽樣雞腿的平均重量為145克到155克之間,是一個區間估計。
其中,145到155稱為置信區間。這很符合人們的常規理解:東西很難100%准確,有個范圍也是可以理解的。
但這個范圍有多大可信度呢?人們用置信置信水平來衡量,即:“我們有多大把握,真實值在置信區間內”。一般用(1-α)表示。如果α取0.05,則置信水平為0.95,即95%的把握。
置信區間與置信水平連起來,完整的表達為:“我們有95%的把握,雞腿平均重量在145至155克之間。”
有小伙伴會好奇,為啥置信水平不是100%!通俗地說,當置信水平太高時,置信區間會變得非常大,從而產生一些正確但無用的結論。
比如:我們有100%的把握,小熊妹顏值在負分滾粗(-10分)與美若天仙(10分)之間……這是句正確的廢話。
再比如:我們有95%的把握,小熊妹是個顏值8分的美女(10分滿分)……這個結論是不是有用多了!

三:如何做區間估計

做區間估計需要四步,不想看原理的小伙伴,死記硬背即可。
第一步:確認抽樣對象和要計算的指標(看算平均值還是比例)第二步:進行抽樣,獲得樣本數據(平均值、比例、方差、樣本量)第三步:給定置信水平(1-α值)第四步:利用Z分布,求出對應置信區間范圍
計算公式為:

圖片


只要把公式的參數,套進去即可。其中標准差,Z值/t值,平均值等參數,在各種計算工具里都有現成的公式可以用。

四:兩個簡單的例子

某公司主要針對中老年群體開發產品,用戶在購買時無需提供身份信息,因此不清楚用戶年齡。
現需抽樣,調查其目標客戶的年齡是否符合“中老年”的范疇,抽樣數據如下,請計算90%置信水平下的目標客戶年齡置信區間(如下圖)。

圖片


再看個比例的例子。某公司想了解用戶滿意度,而有相當比例的用戶沒有在商品評價里打分,因此采用調查方法,抽300名未在網站打分用戶調查,其中182名用戶表示滿意,求95%置信水平下,用戶滿意率的置信區間(如下圖)

圖片


看到這個結果,反應快的小伙伴已經馬上意識到:這種計算能用來驗證業務有沒有撒謊!比如上例中,如果業務方說“用戶滿意率肯定在70%以上”這樣謊言就被戳穿了。
實際上,也確實是如此操作的。區間估計的方法是做假設檢驗的基礎理論,所以小伙們都得掌握一下。

五:這么神奇的方法,為啥平時不咋用?

答:現代企業采集數據的手段豐富了很多,特別是互聯網企業,用戶的注冊、點擊、互動數據是全體收集的。因此想了解用戶消費情況,完全可以針對全體統計消費率,消費金額等指標。就不需要抽樣了,因此用得很少。
但這不意味着運營、產品、銷售的同學就不需要掌握這個概念。因為這兩年ABtest大行其道,導致抽樣實驗的方法又形成一輪文藝復興。
先掌握區間估計的方法,對后邊理解單樣本/雙樣本/多樣本假設檢驗,有巨大幫助。這一點,講到后邊大家都理解了。以上就是今天的分享,喜歡的話,記得轉發、點贊、在看一鍵三連,支持下小熊妹哦,謝謝大家。
在看夠30個的話現場公布小熊妹真實顏值~


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM