用戶畫像學習筆記


一、從0到1構建用戶畫像

  一個比較成熟的畫像系統會有成百上千的標簽,這些標簽的生產不是一次完成的,而是隨着業務的發展需要,逐步補充完善,最終呈現在大家眼前的就是一棵龐大的標簽樹。

  一個好的標簽樹結構要滿足兩個條件:高概括性和強延展性。高概括性意味着結構體系能夠很好地包含一個用戶的基本屬性和產品交互的相關行為,同時對於業務重點單獨強調,沒有遺漏;強延展性意味着結構全面的同時也有一定的抽象概括能力,保證新增的標簽可以很好地找到對應的分類,整個體系不會過於收斂局限。按照這個原則,畫像通常從8個維度組織標簽,分別為基本屬性、平台屬性、行為屬性、產品偏好、興趣偏好、敏感度、消費屬性、用戶生命周期及用戶價值。

 

 

 

 

                            圖11-2 用戶畫像整體架構示例

1.基本屬性

  基本屬性是指一個用戶的基本社會屬性和變更頻率低的平台特征,例如真實社會年齡、性別、婚姻狀況、昵稱、號碼、賬號、IBS等標簽。這些標簽類型多為直采型,可從用戶基本信息表中直接獲取,不需要統計或者算法挖掘。示例:社會性別_女。

2.平台屬性

  平台屬性是用戶在平台上表現出的基本屬性特征,是利用用戶行為進行算法挖掘,標識用戶真實屬性的標簽。

  典型的平台屬性標簽有平台年齡標簽,這里你可能有個疑問,為什么在用戶的基礎屬性中已經有年齡標簽,但在平台屬性中又有一個呢?這就涉及兩者之間的差別。設想一個真實的場景,一個用戶的社會年齡為20歲,但他喜歡中年人的穿衣風格,在使用App購物的時候,表現出的真實偏好是30~40歲的。對於這類使用產品時表現出的用戶心智和真實年齡不相符合的用戶,如果只采用用戶上傳的基本屬性來為其推薦產品,是不是很難命中個體用戶的興趣呢? 

  兩種不同的標簽,本質上是用戶自己上傳信息的隨意性和挖掘信息的權威性差異,是用戶社會屬性和真實屬性差異。我們仔細分析一下兩者在數據源、計算邏輯、標簽格式、標簽值和應用場景等方面的差異,如下。

  (1)數據源與計算邏輯方面基本屬性直接利用用戶自行上傳的、存儲在用戶基本信息表里的數據,平台屬性則利用客戶端或者服務端埋點上報采集的用戶行為數據進行挖掘計算生成。基本屬性是典型的直采型標簽,平台屬性是典型的算法挖掘型標簽。

  (2)末級標簽和輸出標簽值方面以性別為例,基本屬性代表用戶真實的社會身份,是確定的事實,典型標簽形式為“性別_女”,而平台屬性則代表用戶在性別維度的偏好概率,典型形式為“性別_女_0.80”,其中“女”為末級標簽,“0.80”則代表用戶在平台的女性身份上表現出的傾向程度。

  (3)應用場景方面平台屬性通過用戶行為進行挖掘,更能代表用戶的真實傾向,輸出結果比基本屬性准確率高,在定向營銷和算法里,年齡、性別等通常采用平台屬性。而社會屬性中電話、身份證、賬號、昵稱等使用較多。

3.行為屬性

  行為屬性記錄的是用戶的全部單點行為。用戶的單點行為有很多,包括啟動、登錄、瀏覽、點擊、加車、下單等,而且結合不同的產品、不同的模塊交互、不同的時間窗選取,行為就更加復雜了,要想全面梳理,可以按照“產品×功能模塊×用戶單點行為×時間”四大要素來組織。這里“產品×功能模塊×用戶單點行為×時間”的意思是,一個完整的行為應該包含“哪個產品”“哪個功能模塊”“哪個行為”“哪些時間要求”四大要素,例如某瀏覽器體育頻道最近一次訪問時間。按照這四大要素組織行為,不容易發生遺漏。示例:初次登錄產品時間,最后一次啟動距今時間,30天內搜索行為頻次,一個月內閃屏訪問次數等。

4.產品偏好

  產品偏好是對用戶使用某些產品、產品核心功能或者其他渠道的偏好程度的刻畫,屬於挖掘型標簽,其中產品的選取可以包括自家產品、競品;功能和渠道既包括站內產品功能,也包括push、短信、開屏、彈窗等幾大運營和產品法寶。示例:搜索模塊偏好、直接競品_京東偏好、短信偏好。

5.興趣偏好

  興趣偏好是用戶畫像內非常重要的維度,以電商產品為例,用戶對商品的喜愛程度是用戶最終的信息之一,興趣偏好是對用戶和物品之間的關系進行深度刻畫的重要標簽,其中最典型的是品牌偏好、類目偏好和標簽偏好。示例:品牌偏好_優衣庫_0.91、類目偏好_美妝_0.80、標簽偏好_紅色_0.70。

6.敏感度

  在做營銷活動時,我們留意到有些用戶不需要優惠也會下單,而有些用戶一定要有優惠券刺激才會下單,而且優惠券的額度會影響其下單的金額。這種情況下,如何識別出對優惠敏感的用戶並為其發放合理券額的優惠券,保證優惠券不浪費,從而使促銷活動的ROI最大?其中一個很重要的標簽就是用戶的敏感度標簽。敏感度代表用戶對平台活動或者優惠的敏感程度,也是典型的挖掘類標簽。示例:熱點敏感度、折扣敏感度。

7.消費屬性

  無論是電商、內容還是其他領域,公司的目標最終都是收益,所以消費屬性往往作為一個單獨的維度重點刻畫。消費屬性既包括統計型標簽——消費頻次、消費金額、最近一次消費時間等,也包括挖掘型標簽——消費能力和消費意願,還包括敏感度標簽——優惠促銷敏感度、活動敏感度、新品敏感度、爆款敏感度等。

8.用戶生命周期及用戶價值

  用戶生命周期是用戶運營的重要法典,一個用戶從進入產品到離開,通常會經歷“新手”“成長”“成熟”“衰退”“流失”這5個典型階段,每個階段對用戶的運營都存在策略差異,畫像在其中的作用是明確標記用戶所處生命周期的階段,便於后續業務人員落地。用戶價值是體現用戶為產品貢獻價值高低的標簽,最經典的是通過RFM模型獲得交易維度標簽,此外,也應該看到用戶的其他價值,例如為產品貢獻活躍度,通過裂變拉來新用戶,這些都可設計相應的標簽。示例:新手、成長、成熟、衰退、流失、高價值用戶、VIP等級等。

 

二、用戶畫像從1到100的構建思路

用戶畫像的主要目的有以下3個:

  ·用於用戶信息的統計,建立對產品、對用戶的基本認知;

  ·用於用戶定向營銷,利用人群圈選投放物料;

  ·用於算法,沉淀用戶特征,供模型使用。標簽的完善也可以按照這3個維度不斷豐富。

1.用於統計,對產品、對用戶的基本認知

  每個產品功能策略的完善,都需要建立在對產品、對用戶的充分認知基礎上,也就是說,用戶是誰,有何特點,基本情況如何,這些是用戶畫像需要回答的重要問題。

  思路拆解:既然要了解用戶的基礎信息,就需要將用戶基本屬性進行拆解,包括年齡、性別、居住城市(幾線)、家庭結構(婚否、孩否)等。為了盈利考慮,還需要了解基本的收入水平、消費能力等。將拆解的維度抽象,構建對應標簽,然后進行分布統計,便能生成一份基本的用戶認知報告。

  標簽結果:年齡、性別等。

2.用於定向營銷和精細化運營

  運營人員作為畫像的重要業務適用方,每天都會通過標簽圈選人群,做定向的用戶、活動、內容精細化運營,以及各app每天都在進行的促銷活動。這些運營和活動的場景分布在產品的各個渠道和各個資源位,對場景和人群的精細程度要求都很高。

  舉一個日常工作中最常見的需求,通過一次數據分析發現,產品的流失用戶占比提升,經過討論,大家認為一次結合利益點的push推送是召回流失用戶的有效且快速的手段;同時push作為各個業務都在爭取的有限資源,希望可以提高使用效率,確保push這個資源渠道的整體roi。以上需求希望畫像可以支持。

  思路拆解:從這個需求背景中,我們做一次關鍵詞提取,不難發現,關鍵詞是“流失用戶”“利益點”“push”“效率”。其中“流失用戶”是用戶身份識別,“利益點”是用戶優惠敏感度,“push”是產品渠道資源,“效率”意味着要盡可能確保圈選人群精准,不能為了覆蓋率犧牲准確率。

  具體落地步驟如下:

  第一步,確定流失用戶的口徑和標簽。這里需要用到用戶生命周期的划分,從中識別並標識出流失用戶。

  第二步,分析對流失用戶拉回效果最好的利益點。例如優惠券、折扣、禮品或其他內容。這一步需要運營和數據開發人員根據日常經驗和數據分析完成,對於畫像的要求是基於分析結論,挖掘不同用戶對於優惠折扣的敏感程度,這一點在前面介紹敏感度標簽時有論述,最終目的是確保將每一分錢都花在刀刃上。

  第三步,確定拉回的明確目標。是拉回規模還是准確率。通過需求分析可以確定,本次拉回在資源有限的情況下,需要提升人群識別的准確率。畫像實現准確率的方法有兩個,一是提升畫像算法的准確率,這部分主要依賴算法本身,無法一蹴而就,因此這里選擇第二個方法,即增加人群圈選的條件,也就是新增標簽,供圈選求交。

  根據背景分析,我們可以增加流失用戶關於push渠道打開意願的標簽,提高push資源的使用效率。

  經過上述分析,需要生產的標簽如下:

  ·用戶生命周期_流失

  ·用戶折扣優惠敏感度

  ·push使用標簽。這里可以用統計型標簽,例如push最近一次訪問時間,在使用時設置條件為“最近3天,最近7天”;也可以用綜合的算法挖掘型標簽,即push渠道偏好。

  通過以上需求分析和思路拆解,畫像的建設過程應該比較明確了,這里再留一個思考的案例,可以嘗試分析如何落地:平台新上一款商品,初期需要在某模塊展示給目標用戶做推廣,同時盡量不打擾非目標用戶,且不降低該資源位的整體轉化效率。思路拆解:商品的目標用戶——商品可以按照哪些維度拆分關鍵信息?模塊位置——用戶的模塊功能使用偏好是什么?准確率的要求——如何提升畫像應用的准確率?回答好以上問題,這個需求的標簽便能順利獲得。

3.用於算法,主要應用於搜索推薦、風控廣告等策略方向

  標簽除了用於基本的用戶群體描述、定向營銷和精細化運營,還有一個相對來說新穎又廣泛的用途:用於各算法的各個環節。在召回和排序兩大經典策略流程中,都可以用到用戶畫像,這里我們舉一個畫像在推薦系統召回層的應用案例。              需求背景:推薦系統的本質是從海量信息中計算用戶最感興趣的部分,對應推薦系統的“召回——粗排——精排”,是一個“層層精選”的過程。其中召回層是精選的第一道流程,為后續計算打分准備初步的興趣候選集,這里候選集的生成方法之一就是用戶畫像法。下面仍然以電商業務為例,講述如何用用戶畫像做興趣召回。

  思路拆解:召回的作用是粗篩,幫助推薦系統計算第一道用戶興趣池。這里用戶對物品的興趣可拆解為對商品品牌、類目和商品標簽的興趣,這就轉化為前面介紹的內容了,用戶標簽中有品牌偏好標簽、類目偏好標簽和標簽偏好標簽,只需要在所有品牌、類目、標簽下維護一個按照商品質量或者熱度降序排列的列表,這樣只要獲取到用戶標識,便能從用戶畫像中獲取偏好的品牌、類目和標簽。再從品牌、類目和標簽下的商品列表中召回相應的商品,根據候選集大小的設計,做topk截斷召回。這樣,這部分商品就完成初步的召回,為進入下一個流程進行粗排和精排做好了准備。

 

三、單個用戶標簽的做法

  1、用戶標簽的生產流程

  (1)標簽定義:給出標簽的定義,即發生什么行為的用戶可以打上這個標簽。 

  一個用戶標簽是由用戶的不同歷史行為組合而成的,可以寫成y=∑fn(x),其中fn(x)是單個的用戶行為。所以標簽的定義主要是指這個標簽包括哪些用戶行為,這些用戶行為以什么方式組合計算。

  (2)用戶行為獲取:探究不同的用戶行為的獲取難度,包括怎么獲取數據、怎么處理數據。  

  一個完整的用戶行為(session)包含5個要素:用戶、時間、接觸點、內容和操作。要把這5個要素都獲取到。單純的用戶行為並不難獲取,但是很可能不能直接使用,需要經過以下三個步驟的處理。

  1)內容結構化。用戶行為的五要素中,用戶、時間、接觸點、操作都是可以通過日志獲取的。我們常見的文章、視頻等內容都是非結構化的,不能作為數據直接被使用。內容只有結構化后,成為有價值的數據,才可以被分析、被計算。

  因為獲取到的用戶行為是給算法或者規則計算用的,所以獲取的用戶行為五要素中,內容要經過結構化后才算是獲取了一條有用的數據。

  內容結構化的方式包括分類、tag、關鍵詞等,這些都會作為該內容的內容標簽,被算法使用。每個做用戶畫像的產品經理都要熟悉內容結構化的方式。內容結構化后,可以以標簽的形式存在,是用戶標簽生產過程的中間標簽。文章結構化后,會有文章標簽;

  商品結構化后,會有商品標簽;促銷方式結構化后,會有促銷標簽。

  2)數據質量檢查。數據從采集到使用的過程中會出現各種數據質量問題。在獲取數據時,要先做數據質量的檢查和改善,需要注意以下幾點:

  ·人工標注的數據質量;

  ·中間過程中使用算法計算的環節會有准確率的問題;

  ·如果是用戶人工填寫/選擇,也會有錯誤、不全等問題;

  ·數據處理流程中的無效、失效數據。

  3)基礎數據獲取。內容結構化和數據質量檢查可能需要一些新數據,而這些數據需要開發新功能才能獲取到,這個開發新功能獲取新數據的過程就叫基礎數據獲取。

  

  (3)模型設計:經過分析,確定了哪些行為之后,就可以進行模型的設計。

  (4)標簽計算:對原始用戶行為數據進行計算,生成標簽。

  (5)標簽評估:對生產的標簽進行評估,看准確率、覆蓋率等指標是否達到預期。

  標簽評估方法會在11.6節詳細講解,這里介紹一下產品經理常用的標簽評估方法:准確率。准確率既可以分成5檔,即完全准確、大部分准確、合格、不准確和完全不准確,也可以分成2檔,即不准確、合格。經過多次評估后,筆者團隊一般用后者,更利於將工作重點放在不准確的部分,有助於縮短評估時間。

 

 

 

           圖11-3 用戶標簽的生產流程

 四、算法標簽的一般生產流程

1、標簽定義分析

  示例如下:

  用戶標志_偏好_類目偏好_衣服_0.83

  用戶標志_偏好_類目偏好_帽子_0.12

  這里的“0.83”和“0.12”就是我們需要計算的標簽屬性值。

2、用戶行為獲取(特征探查)

  用戶行為獲取的難點和重點有兩個:新用戶行為如何獲取,是否用戶的全部行為都需要參與計算。

  (1)新用戶的行為如何獲取新用戶行為的獲取方式有以下兩種。

  ·產品設計。新用戶站內數據的獲取依賴產品設計,比如引導用戶關注自己喜歡的話題,這樣就能通過用戶的自主行為完成用戶興趣的第一步收集。

  ·策略設計。例如在首頁重要場景,設計絕對熱度邏輯推薦場景,用戶從熱門內容中選取自己感興趣的物品,產生瀏覽、點擊等行為,這也是完成新用戶收集的方法。

  (2)是否全部行為都需要參與計算

  這個問題的答案一定是否定的,尤其是畫像建設初期,不宜一次加入過多特征訓練,因為結果很難把控。行為特征選擇依據,可以參考兩個標准。

  ·該行為是不是影響用戶決策的核心因子。

  ·該行為是否稀疏。很多行為雖然重要,但因為操作門檻高,數據稀疏,一樣影響模型的訓練,初期可以不引入。

3、模型設計

  (1)標注數據

  (2)訓練集建模

  1)明確哪些特征屬於重要特征

  仍以電商為例,特征一共分為4個維度:用戶的特征、物品的特征、用戶—物品的多維特征和環境特征。在每一個維度內,最能影響業務表現的特征是什么,這是產品經理要明確的問題。

  例如某個以GMV為優化目標的商品列表場景,影響最終收入的因素如下。

  ·用戶側:用戶的年齡、性別、經濟能力、客單價和歷史訂單GMV等,這些都屬於影響用戶付費的重要因素。

  ·物品側:除了物品的文本、圖片信息外,價格和近期價格變動以及優惠程度也是重要特征。

  ·用戶—物品的多維特征:這里涉及用戶對物品相關維度的特征,例如用戶對物品所對應的類目、品牌的歷史購買次數、歷史購買總金額等。

  ·環境:時間、是否為促銷季、優惠券的額度等。

  這些重要的業務特征,都需要產品經理通過數據分析和日常經驗的積累,轉化為模型的特征,幫助算法更好地輸出符合需求的結果。

  2)評估特征的權重值是否符合業務認知人工提供有效特征是建模前的步驟,算法在訓練完成后,也會輸出各特征所對應的真實權重,當算法輸出特征和對應權重的時候,產品經理一方面需要根據自己的經驗,判斷這些權重的合理性;另一方面,需要從這些特征中抽象出真實有效的決策信息,沉淀為自己的經驗,便於建立更完整的業務認知。

  (3)測試集驗證

  除了auc等離線測試算法的指標以外,具體還需要在線上進行a/b測試。

  (4)畫像加工

  1)確定衰減方案

  2)更新頻率

  3)數據歸一

  經過以上步驟,便可以得到一個動態的、不斷更新的、准確的偏好標簽了。

五、加入內容標簽的用戶標簽生產流程

  1、標簽定義分析

  不管什么類型的標簽,生產的第一步都是給標簽做定義。標簽的定義會直接影響到后續的思考,所以在開始做一個標簽之前,一定要花時間想一想,什么樣的用戶可以打上這個標簽,這個標簽是哪些用戶行為的組合。 

  比如,要定義標簽“寵物行業偏好”,可以拆為以下用戶行為。

  用戶行為一:用戶會經常瀏覽寵物的文章。

  用戶行為二:點擊寵物相關的廣告等。

  用戶行為三:購買寵物類別的商品。

  用戶行為四:關注寵物頻道。

  用戶行為五:……

  另外,最好把用戶歷史行為數據找出來驗證,看看自己的定義對不對。

  2、內容標簽制作

  (1)內容標簽制作方法

  1)直采型

  ·b端用戶輸入;

  ·c端用戶輸入;

  ·公司職能部門輸入

  2)規則型

  3)算法型

  (2)內容標簽案例一:文章分類標簽

  ·算法型:人工標注一批寵物類文章數據,由算法學習和訓練模型,模型訓練好后,就可以對新的文章生成文章分類標簽。

  ·規則型:統計文章中出現的某個分類關鍵詞的次數,超過一定閾值,就打上該分類標簽。

  ·直采型:讓博主發送文章時,輸入文章的分類,將該分類存儲於數據庫中,標簽系統可直接調用。

  (3)內容標簽案例二:廣告分類標簽

  ·直采型:人工標注團隊輸入;

  ·直采型:客戶輸入;

  3、用戶標簽模型設計

  ·直采型

  ·統計型

  ·挖掘型

六、用戶畫像的效果驗收

  線上部分:a/b測試

  離線部分:算法指標驗收、分布驗證、交叉驗證和抽樣評測四種方案。

  1、算法指標驗收

  算法指標是對算法能力的評測,例如機器學習,常用指標為AUC、AUC提升率、召回率及准確率四大指標。AUC是算法的常用指標;提升率則是跟之前的迭代對比,評估本次的提升幅度;召回率和准確率是算法基礎指標,用以評估標簽的覆蓋情況和准確情況。

  在使用算法指標的時候,需要注意一點,以AUC為代表的指標是監控每次模型迭代的相關指標,是確保標簽效果的第一步,但算法指標提升與線上效果並非呈標准的線性關系,所以可以信AUC,但不能盡信AUC。

  2、分布驗證

  分布驗證是算法標簽的過程驗證方法,一個算法標簽做完,輸出結果是海量的“用戶標識–分值”對,如何驗證這些“用戶標識–分值”和合理性呢,方法是選取待校驗的標簽和標簽值,再選取最能影響用戶在該標簽分值的一個單點行為,比較分值和行為在用戶軸上的分布情況。

  以類目偏好標簽為例,如圖119所示,第一個分布圖橫坐標是用戶,縱坐標是類目偏好的分值;第二個分布圖橫坐標也是用戶,縱坐標則選取最能代表用戶對類目偏好程度的下單行為——用戶訂單量。將兩者進行對比。

 

                         圖11-9 標簽用戶分布與真實行為分布對比

  可以看到,用戶和具體標簽值分布呈現“L”型,用戶和用戶訂單量呈現“S”型,兩者存在較大的差異。這里值得一提的是,分布驗證是過程驗證方法之一,不是衡量線上最終效果的唯一指標,有些情況下不能一概而論,認為標簽錯誤,但是可以作為標簽的一個重要優化方向。

  3、交叉驗證

  交叉驗證的前提:用已經驗證過的正確標簽和新標簽做交叉,得到較為綜合的用戶特征,再根據經驗判斷新標簽是否合理。

  例如,通過將年齡標簽和消費能力標簽交叉,性別和偏好交叉,最近一次訪問時間和流失預警標簽交叉,判斷年齡低的用戶群消費能力通常不高,女性群體通常不會喜歡男性商品,最近一次訪問時間在最近3天內的通常不會是流失用戶。交叉驗證的標簽數量越多,驗證結論的置信度就越高。

  4、抽樣評測

  如果需要對准確率進行量化,抽樣評測是常規手段。具體方案為,根據需要隨機抽樣或者抽取頭部用戶樣本,與線上一定時間窗口行為統計數據做對比,輔助人工評測,標注合理的樣本數量,來統計准確率。

  例如在用戶興趣偏好標簽輸出后,統計用戶3個月內不同類目標簽的點擊次數(點擊行為比較能夠代表用戶的意願),如果興趣分值高但實際點擊次數非常低,則認為標簽是有問題的。沒有問題的數據占比即是抽樣評測的准確率。

七、標簽系統注意事項

  1、做好mvp測試機制

  MVP是指最小可行性產品,本質是為了加快迭代速度,以便獲取認知。

  對於標簽來說,在MVP階段,需要獲取的認知包括以下幾類。

  ·市場認知

  ·標簽規則認知

  ·測試算法效果

  2、時間在用戶標簽中的用法

  標簽的時間選擇,主要根據標簽是代表的用戶意圖還是興趣。意圖是指用戶想要做什么,一般會用較近的時間;興趣是用戶喜歡什么,興趣一般會維持較長時間,所以興趣標簽采用的時間窗口較長。比如行業偏好是一個興趣標簽,因此采用的用戶行為時間一般較長。

  時間作為一個要素,使用的時候有以下技巧。

  ·標簽測試

  ·標簽優化

  ·時間窗

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM