推薦系統數據稀疏性問題


對於目前大規模的電子商務平台,如淘寶、ebey,其用戶、商品數量都非常大。淘寶數據顯示,2010年淘寶網注冊用戶達到3.7億,在線商品數達到8億,最多的時候每天6000萬人訪問淘寶網,平均每分鍾出售4.8萬件商品。假如我們要做User-Item的協同過濾算法,那么U-I矩陣大小是6000萬 ×8億。在這個數量級上面做協同過濾,即使用hadoop,計算起來也非常吃力,效果也比較差。

讓我們看看為什么效果比較差。在U-I矩陣中,用戶平均瀏覽的商品數量比較小,根據周濤【1】的估計,平均每個用戶的瀏覽寶貝數量不超過800。實際上,平均每個用戶的商品瀏覽數量可能不超過20.那么在U-I矩陣中,只有6000萬×20的entry是有值的,稀疏的度達到 20/8億=2.5e-08,小於百萬分之一。在這個規模下,任意兩個用戶的瀏覽的商品交集都是比較小的。

在淘寶平台,不同於amazon或者豆瓣,同樣的物品(商品)有很多賣家都可以出售。如果用戶瀏覽了同種商品的一個,其實我們可以認為他瀏覽了所有類似的商品。也就是說我們想通過商品的聚類,為了減少數據量,擴大用戶的共同瀏覽量。商品聚類有很多方法,在比較規范的手機數碼聚類簡單一些,然后在女裝男裝等類目聚類更復雜。因為女裝可能從風格等角度去聚類更簡單一些。

還有一個角度是減少用戶量,那么對於相似的用戶可以聚類。不管用什么聚類方法,當面對數千萬用戶和數億商品的時候,計算量是一個比較大的挑戰。如何減少不必要的技術,在盡可能短的時間內得到計算結果是非常重要。

 

參考:

【1】http://blog.sciencenet.cn/home.php?mod=space&uid=3075&do=blog&id=554630


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM