大家好,我是愛學習的小xiong熊妹。
很多小伙伴會問:做數據分析,需要懂多少統計學知識?今天簡單跟大家分享一下。
一、統計學是個啥
統計學是個歷史悠久的學科,有着300年以上歷史。隨着近代科學的發展,人們不再滿足於“普天之下”“眾所周知”這一類含糊的描述,希望用精確的數據來描述事物,因此誕生了描述性統計(descriptive statistics)。
這是統計學最早,也是最普遍的應用。我們經常說的平均數、中位數、眾數等等概念,都是描述性統計的概念。
另一方面,人們發現:獲得數據太難了!尤其在300年前,遍地文盲,口述手抄的時代,想獲取數據難如登天。怎么辦呢?人們開始思考:能否從總體中,抽一些樣本,通過樣本情況推斷總體情況。這樣就一定程度上解決了數據獲取難的問題,是所謂的推斷性統計(inferential statistics)。
上過《統計學》課的小伙伴,都對假設檢驗、統計量、分布函數等概念記憶深刻。這些東西很難搞懂,實際工作中似乎又很少用到。因為這些東西,都是推斷性統計的概念。
二、統計學有哪些內容
隨便百度一本統計學術的目錄,可以看到,有以下章節(如下圖)
其實大部分統計學書都是這么布局的,大同小異。一般四大部分
- 第一部分:描述性統計。
- 第二部分:概率與抽樣。
- 第三部分:假設檢驗。
- 第四部分:統計模型。(如下圖)
那么,到底需要掌握多少呢?
三、初級數據分析師,要掌握哪些
第一部分描述性統計是人人必會的。因為這是做數據分析的最基礎知識和基本概念,不管做什么工作都要用到。而且這一部分概念簡單,很容易掌握。所以入門的新人,最好人手必備包括
- 基礎變量概念(連續、定序、分類)
- 描述集中程度(均值、中位數、眾數)
- 描述離散程度(平均差、方差、標准差)
- 描述數據分布形態(箱型圖)
- 數據圖形展示(8種基礎圖形)
很多基礎的數據分析方法,比如分層分析、矩陣分析等,其實就是描述性統計+數據交叉表。所以如果真的是小白入行,統計學數一般看到前四章就能打住了。不用自己難為自己。
當掌握基礎知識,要參加面試的時候,可以適當補充第二部分:概率與抽樣的知識。並非因為這一部分用處多,而是很多企業喜歡在面試時候問這些問題(就是一個字:卷)。學這一部分,最好的辦法是對着章節后邊的習題做。做對題,通過面試是第一目標。
四、中級數據分析師,要掌握哪些
第三部分知識,是中級以后數據分析師要掌握的。因為這一部分,講的是用抽樣方法做統計推斷。實際工作中,大部分場景不需要做抽樣。比如統計銷售、運營、產品情況,都是全量統計,很少做抽樣。只有特定場景需要。
最典型的就是質量檢測。比如檢查產品的使用壽命、耐用程度、物理強度等指標,就一定得對產品做破壞性檢測。這就意味着不可能100%檢測,一定得抽樣。類似的場景,在供應鏈上還有很多,比如檢測生產線生產質量,比如檢測葯品服用效果等等。
之所以在供應鏈應用多,還有一個深層次原因,就是:供應鏈的檢測,檢測的是一個有固定物理/化學屬性的事物。這樣有可能通過小樣本抽樣,推斷出總體的物理/化學屬性。這樣使得抽樣檢測的結果很穩定,有指導意義。
在營銷端也有類似應用,一般是用在未上線的產品/概念/價格。比如傳統企業流行的包裝測試/口味測試/價格彈性測試,或者互聯網企業流行的ABtest。因為這些測試,都是挑選一小批用戶參與測試,因此涉及小樣本推斷總體情況的判斷,就得用到概率和假設檢驗。
但要注意的是:抽樣方法,往往和具體業務場景捆綁緊密。都是抽樣,質檢端可能就是按產品編號抽;調研則得先攔截受訪者,再甄別特征;互聯網產品的ABtest,則是先對流量做分桶。因此孤零零看統計學知識,無法滿足實際工作需要,得結合具體業務場景學習才行。
五、高級數據分析師,要掌握哪些
第四部分回歸/預測模型,建議緩看。因為這一部分涉及知識量大,且平時工作中不怎么用得上,並且現在機器學習流行,其計算模型思路和統計學不太一樣。所以這一部分,建議在自己已經有積累情況下再看。
另一個問題是:統計模型經常被錯用、亂用。特別是相關分析和回歸分析,因為這兩個非常簡單,用excel就能做,所以經常被一知半解的小白拿出來亂用。結果,要么是業務表示看不懂,不認可;要么是做的錯誤百出,無法自圓其說。所以新人真的慎用。
如果新人真的想看這一塊,建議只看時間序列預測。因為時間序列預測使用范圍非常廣,特別適合領導扔幾個數據過來,讓我們“做個預測看看”的場景。至於其他方法,建議找個現成的工具(比如SPSS),把數據懟進去,然后對着輸出參數做解讀。
以上就是我個人在工作中運用心得,供大家參考。估計有小伙伴會表示:“小熊妹,你這完全不夠呀!最近招聘越來越內卷了,問的統計學知識越來越多,咋辦!”從我的面試經歷看,一般這些卷王們,喜歡卷三個話題:
- ABtest(涉及假設檢驗、抽樣)
- 因果推斷(涉及統計推斷、控制變量)
- 預測模型(時間序列/因果關系模型)
- 作者:小熊妹。公眾號:碼工小熊。數據界新人,喜歡數據分析、數據挖掘。