論文閱讀 - Matrix Factorization Techniques for Recommender Systems

本文轉載自查看原文 2019-09-17 15:57 664 推薦系統

本文為閱讀 MF 經典論文 Matrix Factorization Techniques for Recommender Systems 的筆記。

矩陣分解

矩陣分解的策略有很多，常見的有 SVD (Singular Value Decomposition)，NMF (Nonnegative Matrix Factorization) 等。

因為 user-item 矩陣往往是非常稀疏的，直接采用線性代數中的矩陣分解策略是行不通的。一種想法是利用矩陣中已有的值，期望 \(q_{i}^{T} p_{u}\) 盡可能地接近這些值。得到 user 和 item 矩陣后，就可以恢復出完整的 user-item 評分矩陣，以此預測 user 對於沒有評分過的 item 的評分。

這樣以來矩陣分解可以轉變成下面的優化問題：

\[\min _{q^* p^*} \sum_{(u, i) \in \mathbf{K}}\left(r_{u i}-q_{i}^{T} p_{u}\right)^{2}+\lambda\left(\left\|q_{i}\right\|^{2}+\left\|p_{u}\right\|^{2}\right) \tag{1}\label{1} \]

對原評分矩陣中存在的值，希望 user 向量和 item 向量相乘后盡可能地接近該值。上式中另外加入了正則化項，防止過擬合。因為目的不單單是逼近 user-item 矩陣中存在的值，也希望能夠最好地預測未知的數。

解上面的優化問題，可以使用隨機梯度下降法，也可以使用交替最小二乘法。

隨機梯度下降法（Stochastic gradient descent, SGD）

為了公式更短，先定義：

\[e_{u i}=r_{u i}-q_{i}^{T} p_{u} \]

求偏導，即可得出更新公式：

\[\begin{array}{l}{q_{i} \leftarrow q_{i}+\gamma \cdot\left(e_{u i} \cdot p_{u}-\lambda \cdot q_{i}\right)} \\ {p_{u} \leftarrow p_{u}+\gamma \cdot\left(e_{u i} \cdot q_{i}-\lambda \cdot p_{u}\right)}\end{array} \]

交替最小二乘法（Alternating least squares, ALS）

因為 \(q_i\) 和 \(p_u\) 都是未知的，前面的優化目標，公式 1 是非凸函數，不好求解。但是如果能夠固定 \(q_i\) 和 \(p_u\) 中的一個，交替地更新另外一個，公式中只有一個變量，而且是二次的，優化問題就更容易得到最優解。

SGD 更容易實現且更快，但 ALS 可以並行化獨立更新 \(q_i\) 和 \(p_u\)。

優化策略

相較於簡單的矩陣分解，作者提出了下面四點優化策略。

Adding biases

考慮到不同用戶評分嚴格程度不同，打分范圍不同。比如有的用戶對很差的電影打 6 分，對好電影一律 10 分。而有的用戶對差電影會打 1 分，好電影打分 9 分。這就是用戶的偏差。

另外電影本身因為某種原因，也可以存在偏差，比如因為某些流量明星的加入，很爛的電影，也可以有 6 分。

因此可以將評分值分解為 4 部分：global average，item bias，user bias 和 user-item interaction。舉個例子，已知所有電影的平均評分是 3.7 分，而 Titanic 是不錯的電影，會比平均分高，其 item bias 為 +0.5，另外 Joe 是一個嚴格的人，一向打分就偏低，存在 user bias -0.3。因此 Joe 對 Titanic 的評分為：\(3.7 + 0.5 - 0.3 + q^{T}p\)。

考慮到上面這些因素，對評分的估計為：

\[\hat{r}_{u i}=\mu+b_{i}+b_{u}+q_{i}^{T} p_{u} \tag{2}\label{2} \]

優化目標就變成了：

\[\begin{array}{l}{\min _{p^* , q^* , b^*} \sum_{(u, i) \in \mathrm{K}}\left(r_{u i}-\mu-b_{u}-b_{i}-p_{u}^{T} q_{i}\right)^{2}+\lambda} \\ {\left(\left\|p_{u}\right\|^{2}+\left\|q_{i}\right\|^{2}+b_{u}^{2}+b_{i}^{2}\right)}\end{array} \]

對每個用戶和物品學習一個偏置項。

Additional Input Sources

推薦系統往往需要處理冷啟動問題，很多用戶可能只對個別物品進行了評分，這就很難得出可靠的用戶向量表示。引入其他的信息能夠解決這種信息較少的問題。

推薦系統可以利用隱式信息，比如用戶的瀏覽記錄、搜索記錄、鼠標停留信息等，在沒有足夠多的明確信息（購買、評分）時，此類信息也能在一定程度上對用戶進行刻畫。

考慮到上面這些，作者引入用戶的 implicit feedback 和 user attributes 等信息。

implicit feedback 指的是瀏覽記錄、搜索記錄等。定義 \(N(u)\) 為用戶有過 implicit feedback 的 items 集合，每一個 item 對應一個向量 \(x_{i} \in R^{f}\) ，\(N(u)\) 中的 items 給用戶帶來的特征可以表示為：

\[|N(u)|^{-0.5} \sum_{i \in N(u)} x_{i} \]

前面的 \(|N(u)|^{-0.5}\) 用於歸一化。

另外用戶自身的屬性也是一個信息來源，設用戶有一組特征 \(A(u)\)，每個特征用向量表示 \(y_{a} \in \mathbb{R}^{f}\)，用戶的屬性給用戶來的特征可以表示為：

\[\sum_{a \in A(u)} y_{a} \]

如此以來，用戶對物品的評分可以表示為：

\[\hat{r}_{u i}=\mu+b_{i}+b_{u}+q_{i}^{T}\left[p_{u}+|N(u)|^{-0.5} \sum_{i \in N(u)} x_{i}+\sum_{a \in A(u)} y_{a}\right] \]

和 \(\eqref{2}\) 比起來，就相當於 \(p_u\) 做了些調整。

Temporal dynamics

有很多因素會隨時間變化，比如用戶看的電影越來越多，眼光越來越刁鑽，以前喜歡給電影打 4 星，現在傾向於打 3 星。引入時序信號，可以捕獲到用戶或物品隨着時間的改變。

引入時序信號后，對 \(\hat{r}\) 的估計變為：

\[\hat{r}_{u i}(t)=\mu+b_{i}(t)+b_{u}(t)+q_{i}^{T} p_{u}(t) \]

\(b_{i}(t)\) 是物品的 bias，它會隨時間改變，比如電影剛上映時很好評如潮，后來人們越來越理智，評分漸漸變低。\(b_{u}(t)\) 是用戶偏置，如前面所述，用戶的品味會變化。\(p_{u}(t)\) 是用戶向量，用戶對各種電影的喜好會變化，比如之前喜歡看喜劇片，最近喜歡看驚悚片。\(q_i\) 是隱因素向量，因為電影的各種因素相對穩定，因此不需要加時間因子。

加入了時間維度，式中 \(b_{i}, b_{u}, p_{u}\) 就變成了和時間相關的變量了。是不是說它們在不同的時間就有不同的值呢？是不是將時間分段，每一段得到一組參數呢？詳情可以參考文獻^[1]。

大體思路是，假設這些變量是隨時間線性變化的，於是用一個線性模型來表示這些變量。線性模型 \(y=at+b\)，對每個變量學習一個斜率和截距，代入時間就可以得到對應時間的估計值了。

思考:

作者的這篇論文中的方法是用來評分預測的，Netflix 的比賽評估的是 RMSE，所以作者需要盡可能准確地預測缺失的值。加入時間信息，考慮到了用戶品味等的變化。

這里是使用過去的部分信息，來預測過去的另一部分信息。但在實際的推薦系統中，需要用過去的數據預測未來的用戶的評分。模型需要定期重新訓練，以盡可能准確地預測用戶在接下來的一端實際的評分。

Inputs With Varying confidence Levels

不是所有評分都有一樣的權重，有些評分可能受到了廣告的影響，這對刻畫長期的特征貢獻不大。因此，作者對每個觀察到的評分引入了 confidence level，然置信度低的評分貢獻小一點。如此，優化目標變為：

\[\begin{array}{l}{\min _{p^* , q^* , b^*} \sum_{(u, i) \in K} c_{u i}\left(r_{u i}-\mu-b_{u}-b_{i}\right.} \\ {\left.-p_{u}^{T} q_{i}\right)^{2}+\lambda\left(\left\|p_{u}\right\|^{2}+\left\|q_{i}\right\|^{2}\right.} \\ {\left.+b_{u}^{2}+b_{i}^{2}\right)}\end{array} \]

實驗結果

使用的數據是 Netflix 2006 年的比賽數據，作者獲得了冠軍，下圖為上述幾種算法的實驗結果。圖中曲線上的 50,100,200 表示 latent factor 橫軸是模型參數量。根據縱軸的 RMSE 可以看出各種模型的性能。

總結

相比於最為基本的矩陣分解，本文考慮到了 bias，冷啟動，特征隨時間變化等事實，並將其融入到矩陣分解的策略中。本文是 Latent factor models 的經典之作，值得學習。

Y. Koren, “Collaborative Filtering with Temporal Dynamics,” Proc. 15th ACM SIGKDD Int’l Conf. Knowledge Discovery and Data Mining (KDD 09), ACM Press, 2009, pp. 447-455. ↩︎

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 論文閱讀 | DropoutNet: Addressing Cold Start in Recommender Systems Multi-modal Knowledge Graphs for Recommender Systems - 1 - 論文學習推薦系統（Recommender systems）論文閱讀Graph Convolutional Matrix Completion Recommender Systems Handbook讀書筆記之7 論文閱讀 | Multimodal Transformer Networks for End-to-End Video-Grounded Dialogue Systems 矩陣分解(Matrix Factorization)與推薦系統推薦系統(recommender systems):預測電影評分--問題描述 CKE（Collaborative Knowledge Base Embedding for Recommender Systems）筆記推薦系統(recommender systems):均值歸一化(mean normalization)