個性化推薦系統中的BadCase分析


針對內測用戶反饋,由於前一天點擊了幾個動畫,導致第二天推薦的動畫屏占比較高,於是開始對此badcase進行分析。

首先分析了該用戶的歷史觀看紀錄,由於系統升級,日志缺陷問題,導致該用戶10.15-11.3之間的日志沒有收集到,但是這就出現了前面的假設不成立現象,由於沒有收集到新的數據,對用戶畫像是不可能體現出前天的動畫,動漫以及迪斯尼這些具有偏重的畫像詞。

首先對問題進行了分析,問題可能出現在時間間隔上,因為我們引用了時間間隔作為用戶對某一電影的喜好偏愛權重的計算,導致這個問題可能有兩方面原因:

1.隨着時間的推移計算,某些對用戶的畫像的詞出現了小的波動,但是這些小的波動可能會導致不可預料的后果,例如:在問題出現前對用戶的畫像可能是:

person艾恩·貝利:2.694,伊萬·阿達勒:1.992,蘇菲·瑪索:1.897 label蘇菲·瑪索:0.451,讓·雷諾:0.361,逃之夭夭:0.271,你丫閉嘴:0.271,SophieMarceau:0.226,JeanReno:0.226,八面埋伏:0.203,法國:0.169,法國電影:0.155,懸疑:0.130

但是時間推移之后某些權重開始凸顯出來變成下面這樣:

person阿蘭·里奇森:3.979,賴虹宇:3.979,郭度沅:3.678 label迪斯尼:1.186,動畫:1.129,浪漫:1.119,經典:1.028,3D:1.010,奇幻:0.940,國漫:0.900,效果好:0.800,侏羅紀公園:0.800,斯皮爾伯格:0.775

分析發現,person 中三個演員屬於偏冷門演員,所以電影不會太多,label標簽中迪斯尼,動畫這兩個具有極大的代表性,他們覆蓋了動畫非常之多,導致推薦的都是動畫之內的,這樣效果肯定不好,后期可以做一些處理,但是問題來了,是不是時間原因導致的這個情況?或者還是用戶真的看了許多動畫類的行為電影導致的?通過日志繼續查找原因。

發現自10.17號該用戶升級了APP到4.1.0,而該版本的APP有一個Bug,在發送vv日志的時候不會發送用戶點擊的電影ID,導致了該用戶最新的觀影記錄沒有有效的記錄,導致推薦的數據都是基於以前的用戶行為推薦。但是為什么動畫在以前的權重這么明顯呢,深入代碼發現我們在日志處理環節做了一個FeedBackLogwithRate,這個處理的目的是當用戶提交了已看過和不喜歡的電影,特別是已看過的電影,我們會將用戶的這一行為當成該用戶的一種最新行為,距離當前觀影日期最近的行為,導致推薦的問題復現。

另外一方面導致這個問題的原因是在usermovieA 環節,因為我們在糅合用戶畫像之后與電影進行匹配的過程中,本身庫中某些大標簽他的電影數就多,如:韓國,愛情,成龍,周星馳,青春等,我們在這一塊只是做了一個權重的排序,在這一塊很難有一個區別度去對各個類別都選擇,所以我當前的另外一個思路就是對某一個類別或者標簽只取一定量,超過這個量就不在增加。目前還在測試中。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM