用戶畫像作為當下描述分析用戶、運營營銷的重要工具,是系統通過用戶自行上傳或埋點上報收集記錄了用戶大量信息,為便於各業務應用,將這些信息進行沉淀、加工和抽象,形成一個以用戶標志為主key的標簽樹,用於全面刻畫用戶的屬性和行為信息,這就是用戶畫像。
畫像這種結構化的用戶信息加工方式,極大程度上做到了完整、全面且直觀地刻畫用戶。畫像是用戶在產品的檔案,便於人工使用、機器輸入和算法理解。簡而言之:畫像是由標簽樹及末級標簽的標簽值構成的,全面定量刻畫用戶的結構化信息產品。畫像是標簽的總成,用戶標簽是具體刻畫用戶的結構化信息,以下簡稱標簽。
本文將介紹用戶畫像的構建思路,在畫像構建的過程中,我們把工作分為兩步:
- 第一步:介紹從0到1的構建思路。
- 第二步:介紹從1到100的構建思路。
1. 畫像從0到1的構建思路
一個比較成熟的畫像系統,會有成千上百的標簽,這些標簽的生產不是一次完成的,而是隨着業務的發展需要,逐步補充完善,最終呈現在大家眼前的就是一棵龐大的標簽樹。跟自然界的樹木一樣,要想長得茁壯參天,必須有一個穩定的根基和合理的結構,用戶畫像的構建也是一樣的,前期最重要的仍然是搭好畫像骨架,確保后續的發展過程中,依然保持清晰的結構和高延展性。相反的,如果一開始為了搶時間,將大量標簽無序的堆在線上,后期管理和使用的難度會迅速凸顯出來,重構的代價巨大。
上面說到,一個好的標簽樹結構要滿足兩個條件,“高概括性”和“強延展性”,高概括性意味着結構體系能夠很好的包含一個用戶的基本屬性和產品交互的相關行為,同時對於業務重點單獨強調,沒有遺漏;“強延展性”意味着結構全面的同時也有一定的抽象概括能力,保證新增的標簽可以很好的找到對應的分類,整個體系不會過於收斂局限。
按照這個原則,畫像通常從八個維度組織標簽,分別為:基本屬性、平台屬性、行為屬性、產品偏好、興趣偏好、敏感度、消費屬性、用戶生命周期及用戶價值。
下圖所示為用戶整體架構示例:
用戶畫像整體架構示例
① 基本屬性
基本屬性是指一個用戶的基本社會屬性和變更頻率低的平台特征,例如真實社會年齡、性別、婚姻狀況、昵稱、號碼、賬號、lbs等標簽。這些標簽類型多為直采型,可從用戶基本信息表中直接獲取,不需要統計或者算法挖掘。
示例:社會性別_女
② 平台屬性
平台屬性是用戶在平台上表現出的基本屬性特征,是利用用戶行為進行算法挖掘,標識用戶真實屬性的標簽。
最典型的平台屬性標簽例如平台年齡標簽,這里就有一個疑問,為什么在用戶的基礎屬性中已經有年齡標簽,但在平台屬性中重復又有一個呢,這里就涉及兩者之間的差別。設想一個真實的場景:一個用戶社會身份為20歲,但他喜歡中年人的穿衣風格,在使用app購物的時候,表現出的真實偏好為30-40歲,對於這樣使用產品時表現出的用戶心智和真實年齡不相符合的用戶,如果只采用上傳的基本屬性,給他推薦年輕人喜歡的物品,是不是很難命中個體用戶的興趣呢?
兩種不同的標簽,本質上是用戶自己上傳信息的隨意性和挖掘信息的權威性差異,是用戶社會屬性和真實屬性差異。
我們仔細分析一下兩者在數據源、計算邏輯、標簽格式、標簽值和應用場景的差異,如下:
數據源與計算邏輯:基礎屬性是利用用戶自行上傳的存儲在用戶基礎信息表里的數據,平台屬性則利用客戶端或者服務端埋點上報采集的用戶行為數據進行挖掘計算生成。基本屬性是典型的直采型標簽,平台屬性是典型的算法挖掘型標簽。
末級標簽和輸出標簽值:以性別為例,基本屬性代表用戶真實的社會身份,是確定的事實,所以典型標簽形式為“性別_女”,而平台屬性則代表用戶在性別維度的偏好概率,所以典型形式為“性別_女_0.80”其中‘女’為末級標簽,0.80則代表用戶在平台的女性身份上表現出的傾向程度。
應用場景:平台屬性通過用戶行為進行挖掘,更能代表用戶的真實傾向,輸出結果比基本屬性准確率高,在定向營銷和算法里,年齡、性別等通常采用平台屬性。而社會屬性中電話、身份證、賬號、昵稱等使用較多。
③ 行為屬性
行為屬性記錄的是用戶的全部單點行為,用戶的單點行為包括啟動、登錄、瀏覽、點擊、加車、下單等非常多,而且跟不同的產品,不同的模塊交互,不同的時間窗選取,行為就更加復雜了,如何能夠全面的梳理,可以按照“產品*功能模塊*用戶單點行為*時間”四大要素來組織。
這里的“產品*功能模塊*用戶單點行為*時間”意思是一個完整的行為應該包含“哪個產品”“哪個功能模塊”“哪個行為”“哪些時間要求”幾要素,例如某瀏覽器體育頻道距今最近一次訪問時間。按照這幾要素組織行為,不容易發生遺漏。示例:產品初次登錄時間,最后一次啟動距今時間,30天內搜索行為頻次,一個月內閃屏訪問次數等。
④ 產品偏好
產品偏好是對用戶使用某些產品、產品核心功能或者其他渠道的偏好程度的刻畫,屬於挖掘型標簽,其中產品的選取可以包括自家產品、競品;功能和渠道包括站內產品功能,也包括push、短信、開屏、彈窗等幾大運營和產品法寶。示例:搜索模塊偏好、直接競品_京東偏好、短信偏好。
⑤ 興趣偏好
興趣偏好是用戶畫像內非常重要的維度,以電商產品為例,用戶對商品的喜愛程度是用戶最終的信息之一,興趣偏好就是對用戶和物品之間的關系進行深度刻畫的重要標簽,其中最典型的要屬品牌偏好、類目偏好和標簽偏好。
示例:品牌偏好_優衣庫_0.91類目偏好_美妝_0.80、標簽偏好_紅色_0.70。
⑥ 敏感度
在營銷活動時,我們留意到有些用戶不需要優惠也會下單,而有些用戶一定要通過優惠券刺激才會轉化,優惠券的額度也影響了用戶下單的金額,這種情況下,如何識別對優惠敏感的用戶發放合理的券額的優惠券,保證優惠券不浪費,去報促銷活動的ROI最大,其中一個很重要的標簽就是用戶的敏感度標簽,敏感度代表用戶對平台活動或者優惠的敏感程度,也是典型的挖掘類標簽。
示例:熱點敏感度、折扣敏感度。
⑦ 消費屬性
無論是電商、內容或者其他領域,公司的目標最終都是收益,所以消費屬性往往作為一個單獨的維度重點刻畫。消費屬性包括統計型標簽——消費頻次、消費金額、最近一次消費時間等,也包括挖掘型標簽——消費能力和消費意願,同時包含敏感度標簽——優惠促銷敏感度、活動敏感度、新品敏感度、爆款敏感度等。
⑧ 用戶生命周期及用戶價值
用戶生命周期是用戶運營的重要法典,一個用戶從進入產品到離開,通常會經歷“新手”“成長”“成熟”“衰退”“流失”5個典型階段,每個階段對用戶運營存在策略差異,畫像在其中的作用是明確標記用戶所處生命周期的階段,便於后續業務同學落地。
用戶價值是體現用戶為產品貢獻價值高低的標簽,最經典的是RFM模型獲得交易維度標簽,與此同時,也應該看到用戶的其它價值,例如為產品貢獻活躍度,通過裂變拉來新用戶,這些都可設計相應的標簽。
示例:新手、成長、成熟、衰退、流失、高價值用戶、VIP等級等。
2. 畫像從1到100的構建思路
在前面一節,我們討論了一個用戶畫像的基礎框架應該如何搭建,這一節討論一下,有了基礎框架,到底應該如何着手一步一步完善畫像標簽樹,如何從一個基於業務的需求落地為標簽的設計,如何將標簽應用到具體的業務中。
要解決“如何做”“如何用”兩大問題,要從這個問題的根本入手思考,也就是我們為什么要做用戶畫像,用戶畫像的作用是什么,了解了這個問題,便能水到渠成的根據用途合理的設計方案。
用戶畫像的主要目的有三個,具體如下:
第一用於用戶信息的統計,建立對產品對用戶的基本認知;第二用於用戶定向營銷,利用人群圈選投放物料;第三用於算法,沉淀用戶特征,供模型使用。所以標簽的完善也可以按照這三個維度不斷豐富,以下分別舉例說明標簽建設的思路。
① 用於統計,對產品對用戶的基本認知
每個產品功能策略完善,都需要建立在對產品對用戶的充分認知基礎上,也就是說,用戶是誰,有何特點,基本情況如何,這些是用戶畫像需要回答的重要問題。
思路拆解:既然要了解用戶的基礎信息,就需要將用戶基本屬性進行拆解:年齡、性別、居住城市(幾線)、家庭結構(婚否、孩否)等。為了盈利考慮,還需要了解基本的收入水平、消費能力等。將拆解的維度抽象,構建對應標簽,然后進行分布統計,便能生成一份基本的用戶認知報告。
標簽結果:年齡、性別等。
② 用於定向營銷和精細化運營
運營同學作為畫像的重要業務使用方,每天都會通過標簽圈選人群,做定向的用戶、活動、內容精細化運營,以及各app每天都在進行的促銷活動。這些運營和活動的場景分布在產品的各個渠道和各個資源位,對場景和人群的驚喜程度要求都很高。
我們舉例一個日常工作中最常見的需求:通過一次數據分析發現,產品的流失用戶占比提升,通過討論,大家認為通過一次結合利益點的push推送,召回流失用戶,是有效且快速的手段,同時push作為各個業務都在爭取的有限資源,希望可以提高使用效率,確保push這個資源渠道的整體ROI,以上需求希望畫像可以支持。
思路拆解:從這個需求背景中,我們做一次關鍵詞提取,不難發現,關鍵詞如下是“流失用戶”、“利益點”、“push”“效率”。其中流失用戶是用戶身分識別,利益點是用戶優惠敏感度,push是產品渠道資源,效率意味着要盡可能的確保全選人群精准,不能為了覆蓋率犧牲准確率。
思路拆解完畢,具體落地就變得簡單多了,參考步驟如下:
第一步:需要流失用戶的口徑和標簽,這里需要用到用戶生命周期的划分,從中識別並標識出流失用戶。
第二步:分析對流失用戶拉回效果最好的利益點,例如優惠券、折扣、禮品或者是其他內容。這一步需要運營和數據同學根據日常經驗和數據分析獲得,對於畫像的要求是基於分析結論,挖掘不同用戶對於優惠折扣的敏感程度,這一部分在標簽架構敏感度部分有論述,最終目的是確保每一分錢都能花在刀刃上。
第三步:確定拉回的明確目標,是拉回規模還是准確率,通過需求分析可以確定,本次拉回在資源有限的情況下,需要提升人群識別的准確率,畫像實現准確率的方法有兩條路徑,一是提升畫像算法的准確率,這部分主要依賴算法本身,無法一蹴而就,所以這里選擇的方法是增加人群全選的條件,可就是新增標簽,供圈選求交
根據背景分析,我們可以增加流失用戶關於push渠道的打開意願的標簽,提高push資源的使用效率。
經過上述分析,需要生產的標簽如下:
- 用戶生命周期_流失。
- 用戶折扣優惠敏感度。
- push使用標簽:這里可用統計型標簽,例如push最近一次訪問時間,在使用時設置條件為“最近3天,最近7天”;也可用綜合的算法挖掘型標簽,即push渠道偏好。
通過以上需求分析和思路拆解,畫像的建設過程應該比較明確,這里再留一個思考的case,可以嘗試如何分析如何落地:平台新上一款商品,初期需要在某模塊展示給目標用戶做推廣,同時盡量不打擾其他非目標用戶,不降低該資源位的整體轉化效率。
思路拆解提示:商品的目標用戶——商品可以按照哪些維度拆分關鍵信息?模塊位置——用戶的模塊功能使用偏好是什么?准確率的要求——如何提升畫像應用的准確率?
回答好以上問題,這個需求的標簽便能順利獲得。
③ 用於算法,主要應用於搜索推薦、風控廣告等策略方向,標簽可以直接作為用戶特征使用
標簽除了用於基本的用戶群體描述,定向營銷和精細化運營,還有一個相對來說新穎又廣泛的用途,用於各算法的各個環節,在召回和排序兩大經典策略流程中,都可以用到用戶畫像,這里我們舉例畫像在推薦系統的召回層應用案例。
需求背景:推薦系統的本質是從海量信息中計算用戶最感興趣的部分,對應推薦系統的“召回-粗排-精排”,是一個“層層精選”的過程。其中召回層是精選的第一道流程,為后續計算打分准備初步的興趣候選集,這里候選集的生成方法之一就是用戶畫像法。仍然以電商業務為例,講述如何用用戶畫像做興趣召回。
思路拆解:召回的作用是粗篩,幫助推薦系統計算第一道用戶興趣池,這里用戶對物品的興趣興趣可拆解為對商品品牌、類目和商品標簽的興趣,這部分就已經轉化為上述文章中的已知內容,用戶標簽中是有品牌偏好標簽、類目偏好標簽和標簽偏好標簽的,只需要在所有品牌、類目、標簽下維護一個按照商品質量或者熱度倒敘的列表,這樣只要獲取到用戶標識,邊能從用戶畫像中獲取偏好的品牌、類目和標簽,再從品牌、類目和標簽下的商品列表中召回相應的商品,根據候選集大小的設計,做top k截斷召回。這部分商品完成了初步的召回,為進入下一個流程進行粗排和精排做准備。
End.
愛數據網專欄作者:呢喃