心理學研究有四個目的——描述、解釋、預測、控制——本文借以表述數據分析的4個層級。
描述
第一個層級是描述——可以理解為用數據來描述某個事物。
用數據來描述某個事物的第一步是量化——通過數值來描述或者衡量某個事物的某種屬性或狀態——最終得到的數值可以是通過某個公式計算到的,也可以是多個“專家”進行主觀評定的。
得到單個數值並不能說明什么問題,要想讓數值產生價值,最簡單的操作就是對比——通過和某個參照值進行對比進而判斷表現的好壞。
為什么需要對比?
假設小明考試考了90分(滿分100分),首先90分表示小明正確回答了90%的問題,不過90分到底好不好,需要比較后才能知道:
- 可以和同班同學比,這次考試,全班平均分是92分,看來小明的成績沒有達到中等水平;
- 也可以和小明的歷史成績比,上一次小明的考試是60分呢,哇塞,長進很大哦。
我們可以把關注的指標和參照值對比發現的gap值稱為Δ值——可以將delta值理解為差異值
或者變化值
,更多可以可以參考前文《從“Δ值”談數據分析》.
在“描述”這個層級,對應的數據分析的典型工作是報表開發。
- 列舉關鍵指標數值及發展趨勢,展示業務達標情況,e.g.KPI的完成情況,和KPI的差距;
- 拆解業務關鍵指標,可以參考加權公式進行橫向維度上的拆解或者縱向業務環節的拆分;
- 設定各自指標的基准參照值,以揭示指標的波動情況(delta值)。
關於“描述”部分,小結如下
解釋
\(\Delta X \leftarrow \Delta Y\)
數據分析中經常需要應對的問題是指標的波動——如果將波動的指標命名為Y,那么此時就需要找出是哪些因素引發了\(\Delta Y\).
e.g. 某一天觀察到app的日活下降了很多(同比於上一周期),作為分析師你應該怎么做?
指標的波動時相對於歷史數據而言(縱向對比),另一個典型的\(\Delta Y\)出現的場景是組間差異(橫向對比),比如在某些業務場景下,你可能發現兩個不同的用戶群在某指標上表現的差異很大,那么你可能想知道導致這種差異的原因。
除此之外,以下場景也是和ΔY
有關的高頻場景
- 為什么某個細類拖了整體的后腿?
- 為什么業務表現低於預期KPI?
- 為什么業務低於競爭對手?
我們用公式 \(\Delta X \leftarrow \Delta Y\) 來表示針對變化量的歸因。
對於變化量的歸因,一般流程如下:
- 判斷波動的嚴重程度,需要設置對比的參照值和波動報警的閾值;
- 排除數據問題,比如底層表是不是有改動或者有人修改了報表中的指標規則,一般來說新上線的業務比較容易出現數據問題;
- 定位問題環節,將\(\Delta Y\)在更細的維度上拆解,時間維度上可以看是什么時候開始的以及持續了多久,空間維度上可以從“人貨場”各維度拆分,看看是什么用戶群、商品、業務場景問題最嚴重;
- 是否歷史有類似情況或者波動規律;
- 先查內因(渠道入口、轉化環節、人貨場);
- 再查外因(政策、市場、競品等);
這個順序也不是絕對的,總體來說的原則有兩點:
- 定位變化發生的環節;
- 按概率從高到低來排查可能的影響因素;
\(X \leftarrow Y\)
除了關注變化量ΔY外,我們還關注有哪些影響因素會影響業務上的關鍵指標。
這里用 \(X \leftarrow Y\) 來表示,注意箭頭的方向。
\(X \leftarrow Y\) 和 \(\Delta X \leftarrow \Delta Y\) 有一部分內容是重疊的,一般來說,對\(\Delta Y\) 有影響的因素也是對\(Y\)有影響的。
不過\(X \leftarrow Y\) 更強調找到影響關鍵指標\(Y\)的影響因素X,並建立相應的函數 \(Y = f(X)\).
這些\(X\)中就包含了在產品或運營上可操作可控制的因素。
e.g. 訪問用戶數 * 下單率 * 客單價 = 銷售額
,基於這個簡單的公式可以判斷,如果要提升銷售額至少可以從三個角度來着手。
關於“解釋”,小結如下
預測
這部分的內容,在文章《預測的方法》中已有較詳盡的說明,請閱讀此文。
如上圖所示,預測有3個角度。
\(X \rightarrow Y\)
對應“解釋”中\(X \leftarrow Y\) 的逆操作——從已知的X來推導未知的Y。
這個過程可以看做是evaluate
,可以使用如下兩種方法:
- 基於關聯原則來類推,簡稱“類推法”,也就是先歸類,然后推導。比如格子衫、發量少、戴眼鏡、男性、程序員這幾個特征是高度關聯的,知道“格子衫”和“發量少”就能推斷出此人職業很可能是“程序員”;
- 基於目標數據和已知數據存在“函數關系”,簡稱“函數法”或者“公式法”,即\(Y=f(X)\),基於函數規則就能計算得到目標數據\(Y\)。比如評估某次產品運營活動對交易產生的影響量(Y),那么對應需要考慮的X可能包含活動覆蓋的人群屬性、人群數量、活動方式、優惠力度等;
\(\Delta X \rightarrow \Delta Y\)
相當於what if
分析。
比如某個產品功能要改動,需要預估這個改動可能帶來的影響,比如影響的范圍(多少用戶,多少訂單等),以及對業務關鍵指標可能產生的波動范圍。
\(Y_{t_1},Y_{t_2},..., Y_{t_k} \rightarrow Y_{t'}\)
基於“時間序列”來預估未來的數據,相當於forecast
,比如股票走勢、業務發展趨勢、交易量預估等。
控制
從心理學研究的角度來看,能控制改變人的認知和行為是最高層級——這樣看來,X教授的能力應該算是最強的了。
不過,從數據分析的角度來說就沒有那么“科幻”了。
可以從兩個角度來看數據分析在“控制”這個層級的工作:
- 收益角度
- 函數角度
收益角度
降本增效是商業的核心追求,數據則是要輔助這個目標的實現。
可以從3方面着手:
- 提升收入(做加法),比如提升每單位交易收入(客單價、ARPPU等)或者提升交易基數(用戶量、訂單數等);
- 降低成本(做減法),減少人力、物力、資金的投入;
- 提升效率(做乘法),提高單位時間的完成量或者周轉率等;
函數角度
- 超越預設目標
\(G(cost, limit, way) \geq target\) - 最大化目標函數
\(Max\bigl( G(cost, limit, way) \bigr)\)
注:
cost
可以投入的資源或成本,比如人力、物力、金錢、時間等;limit
受到的限制,比如外部PEST的限制,或者行業的瓶頸等;way
可以到達目標的可選路徑;target
預設的目標或期望的收益;- \(G(cost, limit, way)\) 相當於收益的目標函數
本小節小結如下