(一)什么是信息流產品
當下,信息流(資訊)和短視頻是唯一兩個在用戶領域保持好的增長事態的細分行業。像其他比較成熟的互聯網細分行業,比如說移動社交,電商,OTO這個細分行業,用戶已經飽和了,用戶增長比較緩慢,而短視頻以及信息流是一個很迅猛的用戶增長的勢頭。
信息流產品是一個非常好的用作商業變現的產品形態。
1. 信息流產品的特點
-
信息流產品
- 在合適的場景下,為用戶提供合適的內容
- 適合手機屏幕,手指上下滑動,如水流般源源不斷
- 數據量足夠大,能夠不斷刷出新內容
2. 對用戶價值
從用戶層面講,信息流產品對於用戶價值,主要體現在下面四個方面
-
便捷閱讀
- 相對於傳統的書籍,雜志,信息流產品會是一個便捷的閱讀方式
-
海量信息
-
新鮮及時
-
個人興趣
3. 商業上的價值
商業上的價值就是信息流廣告
信息流廣告是一種很高效的變現模式
- 就像曾經的搜索廣告,信息流廣告已經成為用戶接受的、高效變現模式
今日頭條 DAU(日活)超過1.2 億,人均時長70分鍾+,年均廣告營收150億+;
網易DAU超過2千萬,人均時長40分鍾+,年均廣告營收50億+;
(二)如何推薦內容
信息流產品的本質是推薦內容,那怎么樣推薦內容呢?
1. 推薦內容的兩種方法
一種是人工運營的方法,人工去篩選一套人工的經驗去對新聞價值做出判斷;另外一種就是依靠機器,依靠算法去做推薦,這兩種推薦內容的方法各有優劣。
2.為什么要用算法
大數據時代,每天更新的內容是海量的。而人工運營,往往局限於熱點內容,就像是冰山一角。冰山之下,是大量的長尾、冷門的內容,必須依賴機器算法做個性化推薦。
3. 推薦系統框架
- 理論上的簡化框架
- 推薦系統實操
我們會有合作伙伴(Partner),也會有爬蟲(Crawler),我們通過爬蟲或者是合作伙伴會把我們的數據抓到我們的庫里,大概庫里每天文章的更新會在 20 萬左右,文章入庫之后,我們通過 Content Parser(分詞提取器)會對文章做一些語義分析、文本分析去生成一些文章相關的標簽或者類型等一些特征,通過過濾之后,我們會把這些數據放在 Feeder 的數據庫。Feeder 一方面與這個Feature Server 相交互,會把數據傳遞到 index(用戶興趣索引)。用戶會根據會話的行為,會做一些記錄和上報,同時會把這些數據(Session Server)同步更新到用戶索引上。Index 之后的召回(Recall),對於一個用戶來講,我們第一次召回,會召回 2000 篇文章左右。這 2000 篇文章的來源一個是CF(協同過濾) ,CF又來源於 ItemCF 就是基於內容的相似度(我之前看過一篇文章,我會推一個跟之前文章相似的文章,就是基於文章相似度做一個推薦),UserCF就是基於用戶相似度的協同過濾,就是通過計算,找出用戶跟另外一個人類似,然后就會把另一個人看過的文章和感興趣的內容也推給這個用戶。另外還有一種召回內容的方式叫 CB 就是基於內容本身,比如說這篇文章是體育,那這篇文章就會推送給有體育標簽的用戶。比如說一篇文章有關鍵字,有科比,那就會推薦給帶有科比標簽的用戶。NH 就是在當前系統里比較熱門的文章,那我們怎么判斷那些是熱門的文章呢,首先是依據 action 就是行為,因為每篇文章可以會被用戶閱讀,被用戶點贊,被用戶評論,被用戶分享,我們還會制定一些權重,那我們對這些行為做一個分析,我們可以判斷這個文章是一個熱門文章。那我們這些熱門文章在召回的時候,也會基於 User Profile(用戶屬性)比如說性別屬性、地區屬性等,我們也不會亂推,盡管它是熱門文章,我們也要考慮人群的定向化;Time 就是任何熱門的東西,都有時間衰減性。
下面說 Rank 這個模塊,就是排序的模塊。這個模塊我們會說從剛剛 2000 篇的文章里篩選出 200 篇文章,並且對這 200 篇文章進行排序。那我們這 200 篇文章是怎么排序的呢?我們會對這 200 篇文章進行 CTR 的預估,以及閱讀時長的預估。為什么不只做 CTR 的預估,就是系統要避免“標題檔”的存在。從這200篇文章里,最后到 Rerank 的模塊,就是從 200 篇文章里審出 15 篇文章。我們用貝葉斯的方法對這個15篇,主要要增加文章的多樣性,我們要把同類推薦的文章打散;Fix 就是在這15 篇文章里增加探索性的內容,我們不希望讓用戶的標簽固化,就是一個用戶打上了體育標簽,我們不希望這個用戶永遠會是這個標簽,我們偶爾也會加 5%-10% 左右的探索性的內容。
(三)推薦質量的評估
1. 流量該如何分配
-
70% 的流量分配給穩定模型
-
30% 的流量分配給實驗模型
- 10% 實驗模型A
- 10% 實驗模型B
- 10% 實驗模型C
2. 實驗模型的評測指標
-
准確率
- 推薦列表里,多少比例的文章,是用戶讀過的;
-
召回率
- 推薦列表中,用戶度過的文章,占用戶閱讀記錄的比例
-
覆蓋率
- 推薦列表的文章里,占文章總數的比例
舉例:文章總量為100,用戶實際看了10篇文章,最終實驗模型推薦了20篇文章,用戶看過的有8篇,准確率為40%,召回率為80%,覆蓋率為20%;
3. 實際業務中關注的算法效果
-
UV 轉化率
- 閱讀UV/曝光UV,反映多少比例的曝光用戶轉化為閱讀用戶
-
PV 轉化率
- 閱讀PV/曝光PV,反映文章的平均轉化情況
-
人均篇數
- 閱讀PV/閱讀UV,反映內容消費深度
-
人均閱讀時長
- 閱讀總時長/閱讀UV,反映內容消費深度