一、指標口徑問題
在電商業務中,新用戶銷售額是考核市場活動拉新效果的重要指標。馬漂亮(化名)是市場部門的數據分析師,某一天,她要給 CEO 提供一份數據報告,報告中有一項指標是“新用戶銷售額”。孫美麗(化名)是會員中心的運營,她每天都會給 CEO 提供每日的新用戶銷售額數據。
結果有一天,CEO 看了這兩份報告后發現,同一日的新用戶銷售額數值相差很大,他判斷數據出了問題,責令兩個部門的負責人進行排查。排查后發現,市場部門對新用戶口徑的定義和會員中心不一樣:
- 市場部門認定新用戶是首次下單並完成支付的用戶;
- 會員中心認定新用戶是當日新注冊用戶。
二、指標常見問題
同名不同徑,同徑不同名。
口徑不清晰,口徑有錯誤。
命名難理解,計算不易懂。
來源不清晰,同部不同徑。
1.相同指標名稱,口徑定義不同
見上述的例子,各管各的 到最后出來的結果不一樣。
2.相同口徑,指標名稱不一樣
這種情況與上面相反,比如發放優惠券是電商常見的促銷手段,現在你有兩個數據產品:
- 一個是經營大腦,主要展示的是企業日常經營活動健康度的核心指標,它有一個指標叫“優惠券抵扣金額”;
- 一個是市場 360,主要是展示市場活動效果衡量的指標,它也有一個指標叫“優惠券消耗金額”。
其實,兩者的口徑定義並沒有區別,但是指標名稱不同,這會讓使用指標的人疑惑,是不是同一個指標,計算邏輯是否一致?數據是否可以橫向對比?
3.不同限定詞,描述相同事實過程的兩個指標,相同事實部分口徑不一致
這個問題該如何理解呢? 來看一個例子。
黑卡會員購買用戶和非會員購買用戶數,它們描述的都是用戶下單購買商品的相同業務過程,記錄的都是購買商品的事實,只是一個限定詞是黑卡會員,一個限定詞是非會員。
按照一致性原則,雖然是兩個指標,但是對於購買用戶數這個相同的事實部分,業務口徑、計算邏輯應該是一致的,但是現實情況卻可能不是這樣:
- “黑卡會員購買用戶數”的口徑定義是計算周期內去重的(重復購買的用戶只算一個),下單並且支付成功的用戶數量;
- “ 非會員的購買用戶數”的口徑定義是計算周期內去重的,下單並且支付成功,排除關單(“關單”是指在用戶在下單購買成功后,取消訂單)的用戶數量。
你能看到,對於購買用戶數,這兩個指標的口徑是不一致的,一個包含關單,一個不包含關單。
4.指標口徑描述不清晰
比如“關單金額”,口徑描述“關閉訂單的金額”。不同人的理解可能不一樣,有的人會認為是支付成功后關閉訂單;也有可能是支付完成前,取消訂單。描述不清晰,就會讓人們對數據的理解產生歧義。
5.指標口徑描述錯誤
在流量分析數據產品中,有“7 日 uv”這個指標,口徑的定義是 7 日內日均 uv。根據口徑描述的計算邏輯,應該是最近 7 日,每日 uv 相加除以 7 取平均值。顯然,這個定義在業務場景中是有問題的,正確的 7 日 uv 的口徑定義應該是 7 日內有登錄過,去重的用戶數。
6.指標命名難於理解
不難理解ads_jkdjjkljks_ksafkl 諸如此類
7.數據指標來源和計算邏輯不清晰
如果指標數據來源不清楚,一旦這個指標數據異常,就很難去做溯源。另外,有些指標的計算邏輯比較復雜,僅僅憑借業務口徑一段描述,使用指標的人還是無法理解這個指標的計算邏輯,這個時候就需要有一些偽碼或者 SQL 描述。
三、如和規范化定義指標
1.面向主題域
指標中的主題域與數倉中的概念是一致的,划分標准最好是跟數倉保持一致
eg:銷售分析”就是一個分析領域,這個“銷售分析”所涉及到的分析對象有商品、供應商、顧客、倉庫等,那么數倉主題就確定為商品主題、供應商主題、顧客主題、倉庫主題,“銷售分析”就可以作為一個主題域;
2.拆分原子指標和派生指標
統計周期、統計粒度、業務限定、原子指標,組成派生指標,所以原子指標可以定義為不能夠按照上述規則進一步拆分的指標。
引用前面的例子:
- 購買用戶數是原子指標,原子指標的口徑定義是“計算周期內去重的,下單並且支付成功的用戶數量,包括關單”;
- 黑卡會員和非會員都可以認定為業務限定詞;
- 統計粒度是商品粒度的;
- 統計周期是 30 天。
- 這樣 30 天內,商品維度的黑卡會員購買用戶數和 30 天內商品維度的非會員購買用戶數就作為兩個派生指標存在,但是他們繼承自同一個原子指標。
3.命名規范
根據所在公司定義的術語表,或者分層規范見表或者任務 這個沒必要細說,反正記住命名要規范就行。
4.分等級管理
- 一級指標,要確保指標按時、保證質量產出,指標創建由中台負責;
- 二級指標,允許業務方自己創建,中台不承諾指標的產出時間和質量。
5.指標系統
在了解如何管理指標之后,我們還需要一款好用的工具,幫助我們落實管理方法。我觀察到,很多公司喜歡用 Excel 管理指標(本博主所工作過的公司就是用的excel,也是大多數公司所用的),覺得 Excel 上手容易,編輯比較方便。在我看來,Excel 並不是一個適合指標管理的工具,有這樣幾個原因:
難於共享;
缺少權限控制;
無法動態更新;
大公司有自己的指標管理系統 如下圖:
6.構建全局指標字典
構建全局的指標字典分為兩個場景:
- 一個是面對一個新的指標需求,如何基於指標系統完成指標開發流程;
- 另外一個是面對已經存在的,混亂的指標現狀,如何進行全局梳理。
先來看第一個場景。
指標需求評審,需要需求方、數據開發、應用開發都參加。評審首先要確認這是不是一個新的指標,並明確它是原子指標還是派生指標。評審的目的就是要大家達成一致。
評審的結果一種是不需要開發,是一個已經存在的指標,直接可以通過設計邏輯模型(具體我會在數據服務章節講),發布接口,獲取數據。第二種就是需要開發。前者交付時間短,后者需要排期,交付時間長。
上面我提到指標有一級和二級之分,這個流程適用於一級指標,對於二級指標,可以不需要評審,當然開發也是由業務方開發和發布上線。
接下來,我們來看第二個場景。
除了新建指標的流程,對於很多公司,已經有一定的大數據業務,但是還不能算是一個中台,那這部分公司該如何進行一次全局的指標梳理呢?我認為應該有以下幾個步驟:
成立以數據產品或者分析師為核心的 1~3 人的工作小組,專門負責指標的全局梳理;
制定指標梳理計划,明確指標梳理目標,覆蓋多少個業務線,與業務方共同制定時間計划;
對於每一個業務線,需要對還在使用的數據報表、數據產品進行盤點,這里順便可以把沒用的報表和數據產品應該下線;
最后總結腦圖: