今日頭條核心技術“個性推薦算法”揭秘
【IT168 評論】互聯網給用戶帶來了大量的信息,滿足了用戶在信息時代對信息的需求,也使得用戶在面對大量信息時無法從中獲得對自己真正有用的那部分信息,對信息的使用效率反而降低了,而通常解決 1月20日,新生代移動互聯網企業今日頭條在北京國家會議中心舉辦了“算數·年度數據發布會”,數據發布會的主題名為“算數”,實際上指的是“算法”與“數據”。
眾所周知,今日頭條是
那么今日頭條是怎么做到為每一個用戶按興趣精准推薦新聞的呢?在發布會上,今日頭條的技術副總裁楊震原給我們揭秘了今日頭條的個性化推薦核心“算法”。
今日頭條的個性化推薦算法原理
如上圖,有3篇文章,讓3個用戶投票(注:這3個用戶是一類人,有相同屬性(喜好和偏好)),那第4個用戶應該被系統推薦的文章是那篇呢?第4個用戶與前3個用戶都是一類人,答案顯 沒錯,今日頭條的個性化推薦算法原理 今日頭條是如何來划分人群和文章
搞技術的朋友都知道, 上面那個例子只是很小的人群,但是現實生活中不會有這樣小的人群,而且太小的人群通過推薦投票的方式也很難推薦出很精細的內容,只能推薦出一些熱門內容,那今日頭條是如何來划分人群?
我們假定上圖這 根據人群不同維度,我們可以細分到一個合理的力度。特別需要注意的是:在細分的領域里面投票數既不要太多,但也不要太少,因為太多沒有個性化,僅是一個大眾關心的話題而已,而投票數太少又沒有統計意義,支持度就低了。
人群特征可以是閱讀姓名,年齡,地域,職業等等。同理,文章也是類似的,文章有提到哪些名人,文章發布的時間,文章所屬的地區等等,也都有很多特性,這些都是可以去組合起來。
今日頭條是怎樣判斷一個人屬於怎樣的人群
判斷一個人屬於怎樣的人群相對簡單。比如地域,用戶的手機在什么區域,就可以認為用戶是什么地域的;比如說用戶興趣,可以根據用戶的閱讀習慣去判斷,用戶會經常去看科技的文章,那就可以判斷用戶屬於科技的人群;再比如說用戶的好友關系,用戶在今日頭條上面注冊了,用戶的好友都是娛樂圈的人,則該用戶很有可能也是娛樂圈的人;所以通過用戶在今日頭條上行為,以及用戶客觀的地理位置信息,就能判斷用戶到底屬於一個什么樣的人群。
今日頭條的個性推薦算法公式
精准推薦最難的不是划分人群,也不是判斷用戶人群歸屬,更不是文章屬性判斷,一個人可以屬於多個人群,也有多個文章候選,選那個推薦才是最難的。而今日頭條的推薦內容是怎么算出來的呢?
通過上圖的計算公式:W1*候選1的投票率+W2*候選2的投票率+W3候選3的投票率+……=最高分,最后能計算出一個得分,按得分的高低來排序,就可以得到推薦文章的一個侯選,這個過程實際上是一個比較簡單的算法,而這在今日頭條內部叫邏輯回歸。
總的來說,個性化推薦技術本身並不神秘,歸根到底推薦算法關鍵是還在於對海量用戶行為的數據分析與挖掘,也許各家算法略有不同,但最終目的都是殊途同歸,為實現最精准的內容推薦而努力中。
如果你看的還不過癮,欲知更多(阿里、騰訊、網易、58同城、豆瓣等)知名站點推薦系統技術內容,請點擊(牛逼站是怎樣煉成的?-推薦系統篇)