基於矩陣分解的隱因子模型

本文轉載自查看原文 2015-10-09 16:31 1498 SVD

推薦系統是現今廣泛運用的一種數據分析方法。常見的如，“你關注的人也關注他”，“喜歡這個物品的用戶還喜歡。。”“你也許會喜歡”等等。

常見的推薦系統分為基於內容的推薦與基於歷史記錄的推薦。

基於內容的推薦，關鍵在於提取到有用的用戶，物品信息，以此為特征向量來進行分類，回歸。

基於歷史記錄的推薦，記錄用戶的評分，點擊，收藏等等行為，以此來判斷。

基於內容的推薦對於用戶物品的信息收集度要求比較高，而許多情況下很難得到那么多的有用信息。而基於歷史記錄的方法，則利用一些常見的歷史記錄，相比與基於內容的方法，數據的收集比較容易。

協同過濾廣泛運用在推薦系統中。一般的方式是通過相似性度量，得到相似的用戶集合，或者相似的物品集合，然后據此來進行推薦。

Amazon的圖書推薦系統就是使用的基於物品相似性的推薦，“我猜你還喜歡**物品”。

不過，簡單的協同過濾效果不是很好，我們或考慮用戶聚類，得到基於用戶的協同過濾；或只考慮物品聚類，得到基於物品的協同過濾。

有人提出了基於矩陣分解（SVD）的隱因子模型（Latent Factor Model）。

隱因子模型通過假設一個隱因子空間，分別得到用戶，物品的類別矩陣，然后通過矩陣相乘得到最后的結果。在實踐中，LFM的效果會高於一般的協同過濾算法。

1. LFM基本方法

我們用user1,2,3表示用戶，item 1,2,3表示物品，Rij表示用戶i對於物品j的評分，也就是喜好度。那么我們需要得到一個關於用戶-物品的二維矩陣，如下面的R。

常見的系統中，R是一個非常稀疏的矩陣，因為我們不可能得到所有用戶對於所有物品的評分。於是利用稀疏的R，填充得到一個滿矩陣R’就是我們的目的。

在協同過濾中，我們通常會假設一些用戶，或者一些物品屬於一個類型，通過類型來推薦。這這里，我們也可以假設類（class），或者說是因子（factor）。我們假設用戶對於特定的因子有一定的喜好度，並且物品對於特定的因子有一定的包含度。

比如，用戶對於喜劇，武打的喜好度為1,5；而物品對於喜劇，武打的包含度為5,1；那么我們可以大概地判斷用戶不會喜歡這部電影。

也就是我們人為地抽象出一個隱形因子空間，然后把用戶和物品分別投影到這個空間上，來直接尋找用戶-物品的喜好度。

一個簡單的二維隱因子空間示意圖如下：

上圖以男-女；輕松-嚴肅；兩個維度作為隱因子，把用戶和電影投影到這個二維空間上。

上面的問題，我們用數學的方法描述，就是寫成如下的矩陣：

P表示用戶對於某個隱因子的喜好度；Q表示物品對於某個隱因子的包含度。我們使用矩陣相乘得到用戶-物品喜好度。

正如上面所說，R是一個稀疏的矩陣，我們通過R中的已知值，得到P,Q后，再相乘，反過來填充R矩陣，最后得到一個滿的R矩陣。

於是隱因子模型轉化為矩陣分解問題，常見的有SVD，以及下面的一些方法。

下面介紹具體的方法

2. Batch learning of SVD

設已知評分矩陣V，I為索引矩陣，I（I,j）=1表示V中的對應元素為已知。U，M分別表示用戶-factor，物品-factor矩陣。

於是，我們先用V分解為U*M，目標函數如下：

第一項為最小二乘誤差，P可以簡單理解為點乘；

第二項，第三項為防止過擬合的正則化項。

求解上述的優化問題，可以用梯度下降法。計算得負梯度方向如下：

我們每次迭代，先計算得到U，M的負梯度方向，然后更新U,M；多次迭代，直至收斂。

這種方法的缺點是對於大的稀疏矩陣來說，有很大的方差，要很小的收斂速度才能保證收斂。

改進：可以考慮加入一個動量因子，來加速其收斂速度：

3. Incomplete incremental learning of SVD

上述的方法對於大的稀疏矩陣來說，不是很好的方法。

於是，我們細化求解過程。

改進后的最優化目標函數如下：

也就是，我們以V的行為單位，每次最優化每一行，從而降低batch learning的方差。

負梯度方向：

4. Complete incremental learning of SVD

同樣的，根據incrementlearning的減少方差的思想，我們可以再次細化求解過程。

以V的已知元素為單位，求解。

最優化目標函數如下：

每次迭代，我們遍歷每個V中的已知元素，求得一個負梯度方向，更行U,M;

另兩個改進的SVD-bias SVD 和constraint SVD。

bias-SVD

一般的SVD的最優化目標函數如下：

其中第一項為最小二乘項，后兩項為正則化約束，防止過擬合。

第一項中的P，可以簡單定義為點乘，如下：

P=Ui’*Mj;

我們知道，每個用戶都有不同的打分習慣。比如，A,B兩個用戶對於電影C都是同樣的喜好層度，為3。不過A是一個嚴格的打分者，他一般傾向於保守打分，於是A給電影C的打分為3-0.5=2.5；而B是一個寬松的打分者，他的分數便為3+0.5=4；

如果我們不考慮上面的因素，就會簡單地判斷B更喜歡電影C。

於是，我們希望引入一個無偏的喜好度U和M，以及額外的bias偏差變量alfa,beta。用U,M來描述無偏喜好，alfa，beta描述打分寬松度。這樣，我們的P函數就可以寫成：

如果在加入一個基本分a,公式最終可以寫成：

目標函數：

上述為四個變量的凸優化過程，其中關於Ui,Mj的負梯度同completeincremental SVD，而關於alfa，beta的求解如下：

負梯度：

於是我們遍歷整個V矩陣，對於已知元素，更新上面四個值；迭代計算，直至收斂。

Constraint SVD

SVD是矩陣乘法的方式，得到用戶-物品可能喜好度。從數學形式上我們可以看出，隱因子模型同時考慮了用戶聚類，物品聚類，用類似聚類的信息填充了這些Miss value。如果某個用戶的U-M行過於稀疏，而某個物品M-U不稀疏，（這種情況是常見的）。那么Miss value的填充很大程度上取決於這個物品的屬性，最后得到近似於這個物品的平均值。

也就是，在用戶，物品信息不平衡的情況下，我們容易減少用戶對於喜好的影響程度。如下的contraint SVD一定程度上解決了這個問題。

我們重新定義U矩陣，如下：