（一）什么是信息流產品

當下，信息流（資訊）和短視頻是唯一兩個在用戶領域保持好的增長事態的細分行業。像其他比較成熟的互聯網細分行業，比如說移動社交，電商，OTO這個細分行業，用戶已經飽和了，用戶增長比較緩慢，而短視頻以及信息流是一個很迅猛的用戶增長的勢頭。

信息流產品是一個非常好的用作商業變現的產品形態。

1. 信息流產品的特點

信息流產品
- 在合適的場景下，為用戶提供合適的內容
- 適合手機屏幕，手指上下滑動，如水流般源源不斷
- 數據量足夠大，能夠不斷刷出新內容

2. 對用戶價值

從用戶層面講，信息流產品對於用戶價值，主要體現在下面四個方面

便捷閱讀
- 相對於傳統的書籍，雜志，信息流產品會是一個便捷的閱讀方式
海量信息
新鮮及時
個人興趣

3. 商業上的價值

商業上的價值就是信息流廣告
信息流廣告是一種很高效的變現模式

就像曾經的搜索廣告，信息流廣告已經成為用戶接受的、高效變現模式

今日頭條 DAU（日活）超過1.2 億，人均時長70分鍾+，年均廣告營收150億+；
網易DAU超過2千萬，人均時長40分鍾+，年均廣告營收50億+；

（二）如何推薦內容

信息流產品的本質是推薦內容，那怎么樣推薦內容呢？

1. 推薦內容的兩種方法

一種是人工運營的方法，人工去篩選一套人工的經驗去對新聞價值做出判斷；另外一種就是依靠機器，依靠算法去做推薦，這兩種推薦內容的方法各有優劣。

2.為什么要用算法

大數據時代，每天更新的內容是海量的。而人工運營，往往局限於熱點內容，就像是冰山一角。冰山之下，是大量的長尾、冷門的內容，必須依賴機器算法做個性化推薦。

3. 推薦系統框架

理論上的簡化框架
推薦系統實操

我們會有合作伙伴（Partner）,也會有爬蟲（Crawler）,我們通過爬蟲或者是合作伙伴會把我們的數據抓到我們的庫里，大概庫里每天文章的更新會在 20 萬左右，文章入庫之后，我們通過 Content Parser（分詞提取器）會對文章做一些語義分析、文本分析去生成一些文章相關的標簽或者類型等一些特征，通過過濾之后，我們會把這些數據放在 Feeder 的數據庫。Feeder 一方面與這個Feature Server 相交互，會把數據傳遞到 index（用戶興趣索引）。用戶會根據會話的行為，會做一些記錄和上報，同時會把這些數據（Session Server）同步更新到用戶索引上。Index 之后的召回（Recall）,對於一個用戶來講，我們第一次召回，會召回 2000 篇文章左右。這 2000 篇文章的來源一個是CF（協同過濾），CF又來源於 ItemCF 就是基於內容的相似度（我之前看過一篇文章，我會推一個跟之前文章相似的文章，就是基於文章相似度做一個推薦），UserCF就是基於用戶相似度的協同過濾，就是通過計算，找出用戶跟另外一個人類似，然后就會把另一個人看過的文章和感興趣的內容也推給這個用戶。另外還有一種召回內容的方式叫 CB 就是基於內容本身，比如說這篇文章是體育，那這篇文章就會推送給有體育標簽的用戶。比如說一篇文章有關鍵字，有科比，那就會推薦給帶有科比標簽的用戶。NH 就是在當前系統里比較熱門的文章，那我們怎么判斷那些是熱門的文章呢，首先是依據 action 就是行為，因為每篇文章可以會被用戶閱讀，被用戶點贊，被用戶評論，被用戶分享，我們還會制定一些權重，那我們對這些行為做一個分析，我們可以判斷這個文章是一個熱門文章。那我們這些熱門文章在召回的時候，也會基於 User Profile（用戶屬性）比如說性別屬性、地區屬性等，我們也不會亂推，盡管它是熱門文章，我們也要考慮人群的定向化；Time 就是任何熱門的東西，都有時間衰減性。
下面說 Rank 這個模塊，就是排序的模塊。這個模塊我們會說從剛剛 2000 篇的文章里篩選出 200 篇文章，並且對這 200 篇文章進行排序。那我們這 200 篇文章是怎么排序的呢？我們會對這 200 篇文章進行 CTR 的預估，以及閱讀時長的預估。為什么不只做 CTR 的預估，就是系統要避免“標題檔”的存在。從這200篇文章里，最后到 Rerank 的模塊，就是從 200 篇文章里審出 15 篇文章。我們用貝葉斯的方法對這個15篇，主要要增加文章的多樣性，我們要把同類推薦的文章打散；Fix 就是在這15 篇文章里增加探索性的內容，我們不希望讓用戶的標簽固化，就是一個用戶打上了體育標簽，我們不希望這個用戶永遠會是這個標簽，我們偶爾也會加 5%-10% 左右的探索性的內容。

（三）推薦質量的評估

1. 流量該如何分配

70% 的流量分配給穩定模型
30% 的流量分配給實驗模型
- 10% 實驗模型A
- 10% 實驗模型B
- 10% 實驗模型C

2. 實驗模型的評測指標

准確率
- 推薦列表里，多少比例的文章，是用戶讀過的；
召回率
- 推薦列表中，用戶度過的文章，占用戶閱讀記錄的比例
覆蓋率
- 推薦列表的文章里，占文章總數的比例

舉例：文章總量為100，用戶實際看了10篇文章，最終實驗模型推薦了20篇文章，用戶看過的有8篇，准確率為40%，召回率為80%，覆蓋率為20%；

3. 實際業務中關注的算法效果

UV 轉化率
- 閱讀UV/曝光UV，反映多少比例的曝光用戶轉化為閱讀用戶
PV 轉化率
- 閱讀PV/曝光PV，反映文章的平均轉化情況
人均篇數
- 閱讀PV/閱讀UV，反映內容消費深度
人均閱讀時長
- 閱讀總時長/閱讀UV，反映內容消費深度

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。