推薦系統之LFM（二）

本文轉載自查看原文 2015-10-16 15:23 1888 Collaborative Filtering Recommendation/ Machine Learning

　　對於一個用戶來說，他們可能有不同的興趣。就以作者舉的豆瓣書單的例子來說，用戶A會關注數學，歷史，計算機方面的書，用戶B喜歡機器學習，編程語言，離散數學方面的書，用戶C喜歡大師Knuth, Jiawei Han等人的著作。那我們在推薦的時候，肯定是向用戶推薦他感興趣的類別下的圖書。那么前提是我們要對所有item（圖書）進行分類。那如何分呢？大家注意到沒有，分類標准這個東西是因人而異的，每個用戶的想法都不一樣。拿B用戶來說，他喜歡的三個類別其實都可以算作是計算機方面的書籍，也就是說B的分類粒度要比A小；拿離散數學來講，他既可以算作數學，也可當做計算機方面的類別，也就是說有些item不能簡單的將其划歸到確定的單一類別；拿C用戶來說，他傾向的是書的作者，只看某幾個特定作者的書，那么跟A，B相比它的分類角度就完全不同了。

　　顯然我們不能靠由單個人（編輯）或team的主觀想法建立起來的分類標准對整個平台用戶喜好進行標准化。

　　此外我們還需要注意的兩個問題：

我們在可見的用戶書單中歸結出3個類別，不等於該用戶就只喜歡這3類，對其他類別的書就一點興趣也沒有。也就是說，我們需要了解用戶對於所有類別的興趣度。
對於一個給定的類來說，我們需要確定這個類中每本書屬於該類別的權重。權重有助於我們確定該推薦哪些書給用戶。

　　下面我們就來看看LFM是如何解決上面的問題的？對於一個給定的用戶行為數據集（數據集包含的是所有的user, 所有的item，以及每個user有過行為的item列表），使用LFM對其建模后，我們可以得到如下圖所示的模型：（假設數據集中有3個user, 4個item, LFM建模的分類數為4）

　　R矩陣是user-item矩陣，矩陣值Rij表示的是user i 對item j的興趣度，這正是我們要求的值。對於一個user來說，當計算出他對所有item的興趣度后，就可以進行排序並作出推薦。LFM算法從數據集中抽取出若干主題，作為user和item之間連接的橋梁，將R矩陣表示為P矩陣和Q矩陣相乘。其中P矩陣是user-class矩陣，矩陣值Pij表示的是user i對class j的興趣度；Q矩陣式class-item矩陣，矩陣值Qij表示的是item j在class i中的權重，權重越高越能作為該類的代表。所以LFM根據如下公式來計算用戶U對物品I的興趣度

　　我們發現使用LFM后，

我們不需要關心分類的角度，結果都是基於用戶行為統計自動聚類的，全憑數據自己說了算。
不需要關心分類粒度的問題，通過設置LFM的最終分類數就可控制粒度，分類數越大，粒度約細。
對於一個item，並不是明確的划分到某一類，而是計算其屬於每一類的概率，是一種標准的軟分類。
對於一個user，我們可以得到他對於每一類的興趣度，而不是只關心可見列表中的那幾個類。
對於每一個class，我們可以得到類中每個item的權重，越能代表這個類的item，權重越高

　　那么，接下去的問題就是如何計算矩陣P和矩陣Q中參數值。一般做法就是最優化損失函數來求參數。在定義損失函數之前，我們需要准備一下數據集並對興趣度的取值做一說明。

　　數據集應該包含所有的user和他們有過行為的（也就是喜歡）的item。所有的這些item構成了一個item全集。對於每個user來說，我們把他有過行為的item稱為正樣本，規定興趣度RUI=1，此外我們還需要從item全集中隨機抽樣，選取與正樣本數量相當的樣本作為負樣本，規定興趣度為RUI=0。因此，興趣的取值范圍為[0,1]。

　　采樣之后原有的數據集得到擴充，得到一個新的user-item集K={(U,I)}，其中如果(U,I)是正樣本，則RUI=1，否則RUI=0。損失函數如下所示：

　　上式中的是用來防止過擬合的正則化項，λ需要根據具體應用場景反復實驗得到。損失函數的優化使用隨機梯度下降算法：

通過求參數PUK和QKI的偏導確定最快的下降方向；

迭代計算不斷優化參數（迭代次數事先人為設置），直到參數收斂。

　　其中，α是學習速率，α越大，迭代下降的越快。α和λ一樣，也需要根據實際的應用場景反復實驗得到。本書中，作者在MovieLens數據集上進行實驗，他取分類數F=100，α=0.02，λ=0.01。

　　綜上所述，執行LFM需要：

根據數據集初始化P和Q矩陣（這是我暫時沒有弄懂的地方，這個初始化過程到底是怎么樣進行的，還懇請各位童鞋予以賜教。）
確定4個參數：分類數F，迭代次數N，學習速率α，正則化參數λ。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。