摘至小米大數據總監司馬雲瑞在2017年 11月4日中科院計算所舉行大數據系統與應用研討會上的分享主題。原文地址:https://mp.weixin.qq.com/s/95Zklj8ovheQV3Gnc-2h-Q , 小米公司經過7年的發展,積累了海量的日志和用戶行為數據。基於全生態、多維度的數據資產,構建了豐富的用戶畫像體系,在業務運營、廣告、互聯網金融、新零售等各個領域發揮了重要作用。
用戶畫像
簡而言之,用戶畫像是根據用戶社會屬性、生活習慣和消費行為等信息而抽象出的一個標簽化的用戶模型。構建用戶畫像的核心工作即是給用戶貼“標簽”,而標簽是通過對用戶信息分析而來的高度精煉的特征標識。
用戶畫像(UserProfile),完美地抽象出一個用戶的信息全貌,可以看作企業應用大數據的根基。
如果你經常購買一些玩偶玩具,那么電商網站即可根據玩具購買的情況替你打上標簽“有孩子”,甚至還可以判斷出你孩子大概的年齡,貼上“有5-10歲的孩子”這樣更為具體的標簽,而這些所有給你貼的標簽統在一起,就成了你的用戶畫像,因此,也可以說用戶畫像就是判斷一個人是什么樣的人。
小米大數據團隊在公司內部主要承擔三項職能:
- 一是數據平台,基於公司海量數據構建數據倉庫,提供OLAP(Online Analytical Processing),BI(Business Intelligence)等平台能力,支持業務部門數據需求;
- 二是數據建設,其中最重要的是用戶畫像的建設,幫助多維度的描繪用戶,實現精細化運營;
- 三是數據驅動業務增長,也即數據應用,通過數據發現業務痛點,解決行業難題,顛覆行業模式。
司馬雲瑞主要分享了用戶畫像,及其如何應用,驅動業務增長,產生價值。
首先是小米的數據來源。小米不僅是一家為人熟知的手機公司,小米還擁有豐富的智能硬件產品,小米電視、小米路由及眾多生態鏈產品。除了在硬件上的廣布局,小米還具備成熟的互聯網業務,如雲服務、互娛、小米金融、商業廣告等。同時小米自帶電商屬性,有小米商城、全網電商、小米之家等線上線下渠道。
下圖右邊展示了2016年4月小米內部雲的數據統計情況,如每天新增850億條的數據記錄,2.3萬個計算作業,當時數據規模為10PB等, 左側由於隱私問題暫時保密,但可預見照片、視頻需要的存儲量是巨大的。
如下圖小米日活過千萬的APP就有21個,瀏覽器的日均搜索量超過1億次,小米電視、語音助手等每日語音輸出高達300萬次,擁有這些豐富的全生態用戶數據,小米在自然語言處理、語音模型等方面具有天然優勢,這些數據的優勢,也是小米AI的優勢
用戶畫像1.0——基於統計的用戶標簽
據司馬雲瑞介紹,小米大數據已經對接、服務了64個公司內部的業務組,主要通過兩種方式:
- 建設公司基礎、重要的數據點,構建數據工場,收攏數據,並在此基礎上構建用戶畫像。小米的用戶畫像包含人口屬性、興趣標簽、時空大數據等,業務可以直接使用;
- 構建數據應用團隊,與業務方一起用數據解決業務難題,例如幫助新零售解決智能選址、供應鏈優化的問題,幫金融解決風控、反欺詐、征信問題,幫公司內部各個業務解決運營問題等。
小米大數據團隊的使命是:“融匯全景數據,賦能核心業務”,從數據的收集,處理,畫像的構建,到幫助業務提高,都是在踐行這一口號。這樣避免了數據孤島,也實現了業務數據的互聯互通。
這是小米用戶畫像的雛形,包含基礎用戶屬性,如年齡性別、學歷職業、地域語言、賬號真實性、米粉指數以及興趣屬性等等。利用多維度數據的優勢來描繪用戶的屬性,比如通過用戶在多看閱讀的歷史記錄,可以判斷用戶的閱讀興趣。
據介紹,用戶畫像1.0主要基於兩項基本的技術:預測和統計規則。
某些事實屬性小米有Label,於是直接采用機器學習的方法,結合用戶的行為數據預測,例如性別年齡。此外,大部分屬性標簽則基於統計規則生成,例如用戶喜歡打游戲,或者經常飛行出差,小米大數據團隊會通過一些規則統計用戶的行為,並為這些用戶打上競技游戲、商務差旅等標簽。
這里是用戶性別屬性的生成流程,是有監督學習。這里以性別預測為例:
- 一方面,小米有大量的帳號/手環/支付/VIP數據,這些數據都有用戶的性別,可以作為訓練樣本。
- 另一方面,小米有大量的用戶行為數據,包含APP/瀏覽器/購物等數據,利用這些數據作為特征,可以訓練性別模型。
針對不同的需求,例如追求准確率或者召回率,團隊生成了不同的數據版本。模型本身也經過了多輪迭代,從最初的邏輯回歸,到XGBoost,到現在的DNN.還以性別預測為例,隨着數據積累的越來越多,預測效果也越來越好。而且隨着數據的增多,一些DNN模型也得以利用,這也使得預測效果越來越好。
用戶畫像還可以直接為業務運營提供分析能力。
小米從誕生之日起就一直在跟黃牛斗智斗勇,我們基於用戶的行為數據,幫助小米網預判用戶是否可信,最終大幅降低黃牛比例。
小米大數據還幫助金融團隊建立風險模型,預判信貸用戶的違約風險,當前小米信貸業務的逾期率顯著低於業界風險水平。具體做法是從用戶的歷史行為數據和關系數據中,挖掘用戶標簽,用戶社交屬性,作為特征加入到模型中去。
用戶畫像2.0——基於行為的事實標簽
服務業務的過程中,數據團隊逐漸發現,畫像1.0並不能解決所有的問題。
通用的興趣標簽不能滿足精細化運營的需要,業務需要更精准的定制畫像。用戶畫像2.0旨在通過四種方法解決標簽不夠精細、定制化的問題:
- 支持直接基於用戶行為數據,復雜組合邏輯的人群提取,方便業務同學自助靈活創建運營客群;
- 支持基於路徑分析和序列挖掘的畫像分析,幫助業務深入洞察用戶;
- 定義統一的數據格式,支持業務資助擴充和接入自建的更精細的畫像;
- 升級基於算法的智能人群拓展能力,集成業務畫像數據生成特征,滿足個性化的人群拓展需求。
基於事實行為產生的標簽效果顯著,幫助部分業務實現了230%到431%的ROI提升。
畫像2.0還支持智能擴展人群,實現了標簽定向(冷啟動)到反饋定向(收集用戶反饋數據迭代優化模型)的閉環,在部分業務實現了200%~300%的CTR提升。
用戶畫像2.1——用戶畫像與業務深度結合的外延探索
小米在新零售的布局做了很多工作,從小米網的運營效率,到線下的小米之家,畫像從數據應用上提供了許多支持,新零售之於大數據,司馬雲瑞認為可以總結成兩句話:“線上線下數據融合,追求極致效率”,不管是風控,運營,還是供應鏈效率,都是新零售追求的目標。
除了線上的數據,小米還有許多線下數據,例如出庫,銷售,POI點等,這些數據的匯聚提供了一個很大的想象空間,例如滯銷分析、競品動態、區域畫像。
基於用戶的行為,小米大數據還在探索一款手機虛擬助手,基於場景或者規則預知用戶的下一個行為,從而為用戶提供非常貼心的服務。例如用戶可以設置到家的時候,如果空氣比較差,就打開空氣凈化器。使用的是業內前沿的APP2VEC來做的,這樣做有幾個好處,特征維度從50萬降到了200維,同時從實驗結果看,APP2VEC可以替代大量的人工特征工程成本。
作為行為預測的一個案例,我們首先做了app打開預測,即預測用戶下一個將要打開的app。首先基於所有用戶打開app的序列數據,在雲端訓練一個模型預測下一個打開的app,將模型下發到手機客戶端,客戶端基於雲端的模型和自己的app使用序列finetune用戶自己的模型,這樣可以更好的預測用戶下一個將要打開哪個app。
此外,用戶的行為序列可以預測用戶接下來要打開的5個應用,基於這個優化手機使用體驗,以及實現更多場景的行為預測。結合小米大量的行為數據和app2vec的技術,我們正在嘗試把所有的action都轉換成向量的形式,再借助LSTM-Attention技術,同時融合場景信息(如當前正在餐館就餐)和個人標簽(如用戶興趣)來預測用戶下一個行為。
參考資料