信息流產品和內容推薦算法


(一)什么是信息流產品

當下,信息流(資訊)和短視頻是唯一兩個在用戶領域保持好的增長事態的細分行業。像其他比較成熟的互聯網細分行業,比如說移動社交,電商,OTO這個細分行業,用戶已經飽和了,用戶增長比較緩慢,而短視頻以及信息流是一個很迅猛的用戶增長的勢頭。

信息流產品是一個非常好的用作商業變現的產品形態。

1. 信息流產品的特點

  • 信息流產品

    • 在合適的場景下,為用戶提供合適的內容
    • 適合手機屏幕,手指上下滑動,如水流般源源不斷
    • 數據量足夠大,能夠不斷刷出新內容

2. 對用戶價值

從用戶層面講,信息流產品對於用戶價值,主要體現在下面四個方面

  • 便捷閱讀

    • 相對於傳統的書籍,雜志,信息流產品會是一個便捷的閱讀方式
  • 海量信息

  • 新鮮及時

  • 個人興趣

3. 商業上的價值

商業上的價值就是信息流廣告
信息流廣告是一種很高效的變現模式

  • 就像曾經的搜索廣告,信息流廣告已經成為用戶接受的、高效變現模式

今日頭條 DAU(日活)超過1.2 億,人均時長70分鍾+,年均廣告營收150億+;
網易DAU超過2千萬,人均時長40分鍾+,年均廣告營收50億+;

(二)如何推薦內容

信息流產品的本質是推薦內容,那怎么樣推薦內容呢?

1. 推薦內容的兩種方法

一種是人工運營的方法,人工去篩選一套人工的經驗去對新聞價值做出判斷;另外一種就是依靠機器,依靠算法去做推薦,這兩種推薦內容的方法各有優劣。

2.為什么要用算法

大數據時代,每天更新的內容是海量的。而人工運營,往往局限於熱點內容,就像是冰山一角。冰山之下,是大量的長尾、冷門的內容,必須依賴機器算法做個性化推薦。

3. 推薦系統框架

  • 理論上的簡化框架
    在這里插入圖片描述
  • 推薦系統實操
    在這里插入圖片描述
    我們會有合作伙伴(Partner),也會有爬蟲(Crawler),我們通過爬蟲或者是合作伙伴會把我們的數據抓到我們的庫里,大概庫里每天文章的更新會在 20 萬左右,文章入庫之后,我們通過 Content Parser(分詞提取器)會對文章做一些語義分析、文本分析去生成一些文章相關的標簽或者類型等一些特征,通過過濾之后,我們會把這些數據放在 Feeder 的數據庫。Feeder 一方面與這個Feature Server 相交互,會把數據傳遞到 index(用戶興趣索引)。用戶會根據會話的行為,會做一些記錄和上報,同時會把這些數據(Session Server)同步更新到用戶索引上。Index 之后的召回(Recall),對於一個用戶來講,我們第一次召回,會召回 2000 篇文章左右。這 2000 篇文章的來源一個是CF(協同過濾) ,CF又來源於 ItemCF 就是基於內容的相似度(我之前看過一篇文章,我會推一個跟之前文章相似的文章,就是基於文章相似度做一個推薦),UserCF就是基於用戶相似度的協同過濾,就是通過計算,找出用戶跟另外一個人類似,然后就會把另一個人看過的文章和感興趣的內容也推給這個用戶。另外還有一種召回內容的方式叫 CB 就是基於內容本身,比如說這篇文章是體育,那這篇文章就會推送給有體育標簽的用戶。比如說一篇文章有關鍵字,有科比,那就會推薦給帶有科比標簽的用戶。NH 就是在當前系統里比較熱門的文章,那我們怎么判斷那些是熱門的文章呢,首先是依據 action 就是行為,因為每篇文章可以會被用戶閱讀,被用戶點贊,被用戶評論,被用戶分享,我們還會制定一些權重,那我們對這些行為做一個分析,我們可以判斷這個文章是一個熱門文章。那我們這些熱門文章在召回的時候,也會基於 User Profile(用戶屬性)比如說性別屬性、地區屬性等,我們也不會亂推,盡管它是熱門文章,我們也要考慮人群的定向化;Time 就是任何熱門的東西,都有時間衰減性。
    下面說 Rank 這個模塊,就是排序的模塊。這個模塊我們會說從剛剛 2000 篇的文章里篩選出 200 篇文章,並且對這 200 篇文章進行排序。那我們這 200 篇文章是怎么排序的呢?我們會對這 200 篇文章進行 CTR 的預估,以及閱讀時長的預估。為什么不只做 CTR 的預估,就是系統要避免“標題檔”的存在。從這200篇文章里,最后到 Rerank 的模塊,就是從 200 篇文章里審出 15 篇文章。我們用貝葉斯的方法對這個15篇,主要要增加文章的多樣性,我們要把同類推薦的文章打散;Fix 就是在這15 篇文章里增加探索性的內容,我們不希望讓用戶的標簽固化,就是一個用戶打上了體育標簽,我們不希望這個用戶永遠會是這個標簽,我們偶爾也會加 5%-10% 左右的探索性的內容。

(三)推薦質量的評估

1. 流量該如何分配

  • 70% 的流量分配給穩定模型

  • 30% 的流量分配給實驗模型

    • 10% 實驗模型A
    • 10% 實驗模型B
    • 10% 實驗模型C

2. 實驗模型的評測指標

  • 准確率

    • 推薦列表里,多少比例的文章,是用戶讀過的;
  • 召回率

    • 推薦列表中,用戶度過的文章,占用戶閱讀記錄的比例
  • 覆蓋率

    • 推薦列表的文章里,占文章總數的比例

舉例:文章總量為100,用戶實際看了10篇文章,最終實驗模型推薦了20篇文章,用戶看過的有8篇,准確率為40%,召回率為80%,覆蓋率為20%;

3. 實際業務中關注的算法效果

  • UV 轉化率

    • 閱讀UV/曝光UV,反映多少比例的曝光用戶轉化為閱讀用戶
  • PV 轉化率

    • 閱讀PV/曝光PV,反映文章的平均轉化情況
  • 人均篇數

    • 閱讀PV/閱讀UV,反映內容消費深度
  • 人均閱讀時長

    • 閱讀總時長/閱讀UV,反映內容消費深度


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM