推薦系統數據稀疏性問題

本文轉載自查看原文 2016-03-05 20:58 3147

對於目前大規模的電子商務平台，如淘寶、ebey，其用戶、商品數量都非常大。淘寶數據顯示，2010年淘寶網注冊用戶達到3.7億，在線商品數達到8億，最多的時候每天6000萬人訪問淘寶網，平均每分鍾出售4.8萬件商品。假如我們要做User-Item的協同過濾算法，那么U-I矩陣大小是6000萬 ×8億。在這個數量級上面做協同過濾，即使用hadoop，計算起來也非常吃力，效果也比較差。

讓我們看看為什么效果比較差。在U-I矩陣中，用戶平均瀏覽的商品數量比較小，根據周濤【1】的估計，平均每個用戶的瀏覽寶貝數量不超過800。實際上，平均每個用戶的商品瀏覽數量可能不超過20.那么在U-I矩陣中，只有6000萬×20的entry是有值的，稀疏的度達到 20/8億=2.5e-08，小於百萬分之一。在這個規模下，任意兩個用戶的瀏覽的商品交集都是比較小的。

在淘寶平台，不同於amazon或者豆瓣，同樣的物品（商品）有很多賣家都可以出售。如果用戶瀏覽了同種商品的一個，其實我們可以認為他瀏覽了所有類似的商品。也就是說我們想通過商品的聚類，為了減少數據量，擴大用戶的共同瀏覽量。商品聚類有很多方法，在比較規范的手機數碼聚類簡單一些，然后在女裝男裝等類目聚類更復雜。因為女裝可能從風格等角度去聚類更簡單一些。

還有一個角度是減少用戶量，那么對於相似的用戶可以聚類。不管用什么聚類方法，當面對數千萬用戶和數億商品的時候，計算量是一個比較大的挑戰。如何減少不必要的技術，在盡可能短的時間內得到計算結果是非常重要。

參考：

【1】http://blog.sciencenet.cn/home.php?mod=space&uid=3075&do=blog&id=554630

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。