先從身邊的一件小事說起:
7月初交水電費的時候發現用水量大幅上漲——6月份竟然用了9噸水——之前每個月都是在3-4噸左右,這期間用水習慣、計費周期並沒有發生變化。“用水量”很可能有問題。用水量來自水表的讀數,水表讀數異常可能有兩種情況:①水管有漏水(水表出口的那頭),②水表的讀數不准。水管漏水的話,那么不用水的時候表也會轉,這個假設很快就通過試驗排除了。接下來驗證水表的跑數,接連3天下班后查看一下水表數據,發現水表跑得真得好快啊,平均一天能跑半方(噸)水,一個月能跑15方,明顯不科學啊。后來把這個事情反饋給房東,就把水表換掉了。
從上面的案例中可以看出,如果沒有注意到之前每個月的用水量,那么很可能不會發現水表有問題——對數據敏感不是數據分析師的專利,而是日常生活、工作中,人人都需要也很容易習得的能力。
對數據敏感的起點是“注意力”——要有意識的去感知和記錄一些數據,做到“心中有數”是對數據敏感的基礎。
有一些數據和我們息息相關,自然而然會投入更多的注意力,比如:
-
像文章開頭那樣,會注意到水電費波動;
-
如果你處於減肥中,那么會關注體重數據以及每天攝入的卡路里;
-
如果你常去菜市場買菜,就會知曉各類蔬菜的價格范圍,也能明顯感知到菜價的上漲或下降;
-
如果你玩股票,那么對股票價格的波動就會比較敏感;
-
你應該很清楚上班通勤單程需要花費的平均用時,畢竟要根據這個時長來設定自己出門時間點(通常你不會想遲到);
“數據敏感度”可以定義為對數據的感知、計算、理解的能力:
-
“感知”指能從生活或者工作場景中發現數據;
-
“計算”是能依據某種規則計算得到某個數據;
-
“理解”則是能發現數據背后的含義,比如從數據中發現規律、探索數據間的關系、通過數據發現業務問題等;
注:以上只是筆者的理解,僅供參考。
需要用到“數據敏感度”的場景可能涉及到如下幾方面:
-
鑒別真偽,能看出數據是不是有貓膩;
-
評判好壞,從數據指標上評判事物的好壞以及是否異常;
-
數據關聯,基於特定的場景,發現數據間的關聯;
-
問題定位,通過數據來診斷特定問題;
-
提煉規則,從數據中發現某種模式或者趨勢;
-
數據預估,基於已知的數據推算未知的目標數據;
1 鑒別真偽
e.g. 判斷如下描述的真偽:
-
200名學生參加優秀學生干部選舉投票,在5位候選人中投票,一人只能投一票(不能棄權),最終得最高票者的支持率為88.7%;
-
某校AB兩院系錄取學生,已知兩院系的男生錄取率都高於女生,那么整體而言兩個院系的整體的男生錄取率都會高於女生;
-
某電商平台交易金額環比增長30%,其中老客交易增長50%,新客交易增長20%;
數據上的真偽主要從以下幾個方面判斷:
-
采樣數據覆蓋的范圍,可以理解為篩選數據的條件有哪些——比如具有某種特征的用戶(e.g.年齡、性別),某個特定的業務場景或業務環節等;
-
指標的計算口徑是啥,是否適用於當前場景?e.g. 比率指標要看分子分母,對比的時間周期等;
-
計算得到的指標是否准確?通常的做法有兩種——①和某個參照值(或者區間)對比;②指標驗算,看能否還原這個指標;e.g. 某APP聲稱自己的日活(DAU)是千萬級的,你事前查過該app在應用商店的累計下載量才小幾百萬,那么對方的數據可能有問題。
-
基於數據推斷的結論是否正確?通常結論推廣的范圍不能超出采樣數據覆蓋的范圍,此外還需要注意區分相關和因果關系、人為因素和自然因素等。
注:更多可參考
用數據說謊How to Lie with Data
2 評判好壞
假設被告知如下數據:
-
某電商平台近1月的首單支付成功率為80%;
-
某產品的付費轉化率為30%;
-
某平台的近30天的平均DAU為500W;
如果沒有相應的業務數據作為參照,很難判斷業務表現的好壞——這個數據在行業中屬於什么位置?正常還是異常?相比於歷史數據比是增長還是下降?
好壞的評判來自“對比”,“對比”需要相應的參照物,可能是一個值,也可能是一個區間。
基於參照物,我們能發現一個指標的相對好壞,或者和預期的數據是否存在偏差。
常見的對比分為兩類:
-
橫向對比:和類似事物對比,和行業的平均值、最高值、最低值對比,e.g.上面提到的電商首單支付成功率可以和行業整體水平對比,也可以和行業的TOP產品對比;
-
縱向對比:和歷史數據對比發現當前數據的偏離度,e.g. 同比、環比;
3 數據關聯
e.g. QuestMobile關於短視頻分析的報告中,提及短視頻獲得更多注意力資源(月人均使用時長)的同時,其他泛娛樂行業的用戶使用時長出現了下降——用戶的注意力是有限的。
數據關聯是通過指標的聯動性發現事物的關聯性,涉及3種關系:
-
因果推導,比如氣溫的增長和冰激凌的銷量。
-
共變關系,比如不同成分間的此消彼長(e.g.上述舉例),或者由潛在因素同時觸發了兩個以上數據的變化(e.g.下雨天,打車的數量和雨傘的銷量都會增加)。
-
場景協同,把不同維度下的數據當做一個個小模塊,然后將這些模塊拼接成一個完整的場景,有點類似於我們通過各個維度的數據來描述一個人,然后還原出這個人的真實生活狀態。
4 問題定位
指通過數據來診斷特定問題,包含兩種情況:
-
自下而上,從數據中發現問題,e.g. 你發現交易的增長放緩,進而發現主要是新客數量降低,進而找到某個新客引流渠道的量大幅減少,那么你可以假設是因為這個渠道的問題最終導致了交易的變化;
-
自上而下,如果某事物(業務)出現問題,那么對應在數據指標上會有怎樣的表現?e.g. 如果支付成功率降低,那么可能是用戶放棄支付率增加,也可能是支付通道的成功率下降等;
注:更多參考
從“Δ值”談數據分析
5 提煉規則
典型案例是序列值填充的題目:
-
1, 2, 4, 8, __, 32
-
1, 3, 6, __, 20, 37
-
11, 27, 66, __, 291
提煉規則是指從數據中發現某種模式或者趨勢,上面提到的數據關聯中的因果推導和共變關系也屬於數據的規則。
不過,這里更強調的是兩方面:
-
在時間維度上發現周期性、增長性或者生命周期等有規律可循的痕跡;
-
在空間維度上則是構建數據指標之間的函數關系,比如出行平台可以基於天氣、是否節假日、是否工作日、出發地、目的地、叫車時間等數據指標來預測得到從出發地到目的地的叫車人數;
在提煉規則的過程中需要經歷多次“提出假設-驗證假設”的過程。
6 數據預估
基於已知的數據推算未知的目標數據,部分要依賴於上面從數據中提取到的規則,另一方面還要依賴於對於目標數據的定義和拆解。
這部分的內容就不多講了,可以參考先前寫的兩篇文章:
如何培養數據敏感度?
-
留心身邊有價值的數據,不管是日常生活,還是工作需要(e.g.業務數據、行業數據報告等),只要數據對你有價值,那就有必要付出你的注意力(去記住它理解它);
-
記住“參考值”,比如某數值的均值或者范圍等,工作中則還會關注業務數據、行業數據(通常關注均值、競品或者TOP產品的數據)。e.g. 某電商平台的日訂單量,客單價,每日交易金額,放棄支付率等。
-
關注“異常值”,指標波動通常意味着有重要的事情發生,挖掘波動背后的“故事”,很可能會發現減少損失或者提升收入的點;
-
訓練自己的批判性思維,外部給到的數據的真實性都值得懷疑,必要時要進行“交叉驗證”;
對於數據分析師而言,還要做到:
-
熟悉業務流程,清楚了解業務的環節,不同環節對應的關鍵指標,哪些因素在什么場景下會影響業務指標,哪些是正/負向因素,哪些是可操作的因素等;
-
熟悉數據指標的算法和用法,指標是計算口徑是怎樣的?適用的場景是啥?
-
數據化思考,如何將業務概念“翻譯”成數據語言?如何用一系列數據去證明某個結論(自上而下)?如何從多個數據中發現其中的業務含義(自下而上)?
對業務的理解是數據分析發揮效用的基礎,分析師對業務數據的敏感度通常是從報表中來,從需求中來,從數據報告中來。
學習任何一項技能,勤動腦,勤動手,始終是不二法門,“數據敏感度”的培養也不例外。
共勉。
本文完。
