讓機器讀懂用戶--大數據中的用戶畫像

本文轉載自查看原文 2018-11-20 17:44 694 網易雲/ 大數據

歡迎訪問網易雲社區，了解更多網易技術產品運營經驗。

一、用戶畫像的定義

用戶畫像（persona）的概念最早由交互設計之父Alan Cooper 提出: “Personas are a concrete representation of target users. ” 是指真實用戶的虛擬代表, 是建立在一系列屬性數據之上的目標用戶模型。隨着互聯網的發展，現在我們說的用戶畫像又包含了新的內容和意義，通常用戶畫像是根據用戶人口學特征、網絡瀏覽內容、網絡社交活動和消費行為等信息而抽象出的一個標簽化的用戶模型。構建用戶畫像的核心工作，主要是利用存儲在服務器上的海量日志和數據庫里的大量數據進行分析和挖掘，給用戶貼“標簽”，而“標簽”是能表示用戶某一維度特征的標識。具體的標簽形式可以參考下圖，即是某網站給其中一個用戶打的標簽。

二、用戶畫像的作用

提取用戶畫像，需要處理海量的日志，花費大量時間和人力。盡管是如此高成本的事情，大部分公司還是希望能給自己的用戶做一份足夠精准的用戶畫像。那么用戶畫像有什么作用，能幫助我們達到哪些目標呢？大體上可以總結為以下幾個方面：

1. 精准營銷：精准直郵、短信、App 消息推送，個性化廣告等。

2. 用戶研究：指導產品優化，甚至做到產品功能的私人定制等。

3. 個性服務：個性化推薦，個性化搜索等。

4. 業務決策：排名統計，地域分析，行業趨勢，競品分析等。

三、用戶畫像的內容

用戶畫像包含的內容並不完全固定，根據行業和產品的不同所關注的特征也有不同。對於大部分互聯網公司，用戶畫像都會包含人口屬性和行為特征。人口屬性主要指用戶的年齡、性別、所在的省份和城市、教育程度、婚姻情況、生育情況、工作所在的行業和職業等。行為特征主要包含活躍度、忠誠度等指標。

除了以上較通用的特征，不同類型的網站提取的用戶畫像各有側重點。以內容為主的媒體或閱讀類網站，還有搜索引擎或通用導航類網站，往往會提取用戶對瀏覽內容的興趣特征，比如體育類、娛樂類、美食類、理財類、旅游類、房產類、汽車類等等。社交網站的用戶畫像，也會提取用戶的社交網絡，從中可以發現關系緊密的用戶群和在社群中起到意見領袖作用的明星節點。電商購物網站的用戶畫像，一般會提取用戶的網購興趣和消費能力等指標。網購興趣主要指用戶在網購時的類目偏好，比如服飾類、箱包類、居家類、母嬰類、洗護類、飲食類等。消費能力指用戶的購買力，如果做得足夠細致，可以把用戶的實際消費水平和在每個類目的心理消費水平區分開，分別建立特征緯度。

另外還可以加上用戶的環境屬性，比如當前時間、訪問地點LBS特征、當地天氣、節假日情況等。當然，對於特定的網站或App，肯定又有特殊關注的用戶緯度，就需要把這些維度做到更加細化，從而能給用戶提供更精准的個性化服務和內容。

四、用戶畫像的生產過程：

用戶特征的提取即用戶畫像的生產過程，大致可以分為以下幾步：

1. 用戶建模，指確定提取的用戶特征為度，和需要使用到的數據源；

1. 數據收集，通過數據收集工具，如Flume或自己寫的腳本程序，把需要使用的數據統一存放到Hadoop集群；

2. 數據清理，數據清理的過程通常位於Hadoop集群，也有可能與數據收集同時進行，這一步的主要工作是把收集到各種來源雜亂無章的數據進行字段提取，得到關注的目標特征。

3. 模型訓練，有些特征可能無法直接從數據清理得到，比如用戶感興趣的內容或用戶的消費水平，那么可以通過收集到的已知特征進行學習和預測；

4. 屬性預測，利用訓練得到的模型和用戶的已知特征，預測用戶的未知特征；

5. 數據合並，把用戶通過各種數據源提取的特征進行合並，並給出一定的可信度；

6. 數據分發，對於合並后的結果數據，分發到精准營銷、個性化推薦、CRM等各個平台，提供數據支持。

下面以用戶性別為例，具體介紹下特征提取的過程：

1. 提取用戶自己填寫的資料，比如注冊時或者活動中填寫的性別資料，這些數據准確率一般很高。

2. 提取用戶的稱謂，如收件人或發件人中有提到的對方稱呼，例如：xxx先生／女士，這個數據也比較准。

3. 根據用戶姓名預測用戶性別，這是一個二分類問題，可以提取用戶的名字部分（百家姓與性別沒有相關性），然后用朴素貝葉斯分類器訓練一個分類器。過程中遇到了生僻字問題，比如“甄嬛”的“嬛”，由於在名字中出現的少，因此分類器無法進行正確分類。考慮到漢字都是由偏旁部首組成，且偏旁部首也常常具有特殊含義（很多與性別具有相關性，比如草字頭傾向女性，金字旁傾向男性），我們利用五筆輸入法分解單字，再把名字本身和五筆打法的字母一起放到LR分類器進行訓練。比如，“嬛”字的打法：『女V+罒 L+一G+衣E = VLGE 』，這里的女字旁就很有女性傾向。

4. 另外，還有一些特征可以利用，比如用戶訪問過的網站，經常訪問一些美妝或女性服飾類網站，是女性的可能性就高，訪問體育軍事類網站，是男性的可能性就高。還有用戶上網的時間段，經常深夜上網的用戶男性的可能性就高。把這些特征加入到LR分類器進行訓練，也能提高一定的數據覆蓋率。

五、數據管理系統

用戶畫像涉及到大量的數據處理和特征提取工作，往往需要用到多數據來源，且多人並行處理數據和生成特征。因此，需要一個數據管理系統來對數據統一進行合並存儲和分發。我們的系統以約定的目錄結構來組織數據，基本目錄層級為：/user_tag/屬性/日期/來源_作者/。以性別特征為例，開發者dev1從用戶姓名提取的性別數據存放路徑為 /user_tag/gender/20170101/name_dev1，開發者dev2從用戶填寫資料提取的性別數據存放路徑為 /user_tag/gender/20170102/raw_dev2。

從每種來源提取的數據可信度是不同的，所以各來源提取的數據必須給出一定的權重，約定一般為0-1之間的一個概率值，這樣系統在做數據的自動合並時，只需要做簡單的加權求和，並歸一化輸出到集群，存儲到事先定義好的hive表。接下來就是數據增量更新到HBase、ES、Spark集群等更多應用服務集群。

六、用戶畫像應用示例

以電商網站的某種頁面的個性化推薦為例，考慮到特征的可解釋性、易擴展和模型的計算性能，很多線上推薦系統采用LR（邏輯回歸）模型訓練，這里也以LR模型舉例。很多推薦場景都會用到基於商品的協同過濾，而基於商品協同過濾的核心是一個商品相關性矩陣W，假設有n個商品，那么W就是一個n * n的矩陣，矩陣的元素wij代表商品Ii和Ij之間的相關系數。而根據用戶訪問和購買商品的行為特征，可以把用戶表示成一個n維的特征向量U=[ i1, i2, ..., in ]。於是U*W可以看成用戶對每個商品的感興趣程度V=[ v1, v2, ..., vn ]，這里v1即是用戶對商品I1的感興趣程度，v1= i1*w11 + i2*w12 + in*w1n。如果把相關系數w11, w12, ..., w1n 看成要求的變量，那么就可以用LR模型，代入訓練集用戶的行為向量U，進行求解。這樣一個初步的LR模型就訓練出來了，效果和基於商品的協同過濾類似。

這時只用到了用戶的行為特征部分，而人口屬性、網購偏好、內容偏好、消費能力和環境特征等其他上下文還沒有利用起來。把以上特征加入到LR模型，同時再加上目標商品自身的屬性，如文本標簽、所屬類目、銷量等數據，如下圖所示，進一步優化訓練原來的LR模型。從而最大程度利用已經提取的用戶畫像數據，做到更精准的個性化推薦。

參考資料：

大數據在京東的典型應用：京東用戶畫像技術曝光

深度揭秘騰訊大數據平台

大數據時代下的用戶洞察：用戶畫像建立

本文來自網易實踐者社區，由作者楊傑授權網易雲社區發布。

相關文章：
【推薦】 OpenResty 最佳實踐（2）
【推薦】 PaaS服務之路漫談（二）

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 大數據用戶畫像方法與實踐(干貨轉帖) 用戶畫像大數據環境搭建——從零開始搭建實時用戶畫像(四) 大數據用戶畫像方法與實踐(干貨轉帖) 大數據用戶畫像方法與實踐(干貨轉帖) 大數據用戶畫像技術原理和實踐大數據項目課：項目實戰：大數據電商用戶畫像大數據時代下的用戶洞察：用戶畫像建立（ppt版）網易雲音樂用戶畫像大數據項目實戰大數據技術暑期實習八___構建用戶畫像（SQL語句打標簽）基於大數據技術的手機用戶畫像與征信研究