用戶畫像是根據用戶社會屬性、生活習慣、興趣愛好和消費行為等信息而抽象出的一個標簽化的用戶模型,簡而言之,就是給用戶“打標簽”。通過獲取用戶的信息,並對其進行分析,繪制用戶畫像。
用戶信息可以分為兩個維度,靜態信息和動態信息,靜態信息則指用戶的固有屬性,如性別,年齡,消費水平等,動態信息則是通過觀察用戶的一舉一動,即獲取的用戶行為信息。
此外,我們還可將標簽分為兩種:靜態屬性標簽和動態屬性標簽。靜態屬性標簽長期甚至永遠都不會發生改變,比如性別,出生日期,這些數據都是既定的事實,幾乎不會改變;動態屬性標簽存在有效期,需要定期地更新,保證標簽的有效性,比如用戶的購買力,用戶的活躍情況等內容。
通過分析用戶行為,然后為用戶打上標簽,再為打上的標簽添加權重,其中標簽用來表征內容,權重用來表征指數(可信度)。用戶畫像需要通過對用戶行為進行監控即建立在大量的真實數據的基礎上從而虛擬出人物畫像。后台數據庫表如下圖:
user_id:用戶id
tag_id:標簽id
tag_name:標簽名稱,用戶某一行為與該標簽聯系
tag_type:標簽類型
action_name:用戶行為名稱,如搜索,點擊,收藏等
action_count:用戶該行為的次數
action_time:用戶該行為的時間,某年某月某日
weight:該標簽的權重
標簽權重字段非常重要,該權重影響着對用戶屬性的歸類,屬性歸類不准確,接下來基於畫像對用戶進行推薦。標簽權重也可以分為兩部分來看,一是該標簽的用戶權重,就單純的考慮用戶與標簽的關系;二是在客觀權重的基礎上,結合業務場景,再得到真正的標簽權重。判斷用戶權重的方法很多,我們采用的是TF-IDF算法。
TF-IDF標簽權重算法
TF:詞頻,指的是某一個給定的詞語在該文件中出現的頻率,如果一個詞條在一類文檔中頻繁出現,則說明該詞條能夠很好代表這個類的文本的特征,數學表示:
IDF:逆向文件頻率,是一個詞語普遍重要性的度量。某一特定詞語的IDF,可以由總文件數目除以包含該詞語之文件的數目,再將得到的商取以10為底的對數得到,簡單來說,就是看這個詞語的稀缺程度,數學表示:
計算公式:用戶標簽權重=行為權重*衰減因子*行為次數*TF-IDF計算得到每個用戶身上標簽的權重。
行為權重
用戶對同種產品產生不同行為,例如搜索、點擊、收藏、取消收藏這幾種行為的行為權重一定是不一樣的,例如將取消收藏行為權重設為負值,具體的行為權重可以參考網上案例或者根據業務場景決定;
衰減因子
一般考慮時間,用戶的行為會隨着時間的過去,歷史行為和當前的相關性不斷減弱,例如去年發生的行為和今年發生的行為應該是有衰減邏輯在里面的,在建立與時間衰減相關的函數時,我們可套用牛頓冷卻定律數學模型。如果周期小或業務場景穩定,也可以選擇忽略這個因素;
行為次數
一般來說,不同的行為次數決定了用戶的偏好程度,用戶行為越多,對偏好影響就越大;
以上內容如有不當之處還望指正!