SVD
參考 https://www.zybuluo.com/rianusr/note/1195225
1 推薦系統概述
1.1 項目安排
1.2 三大協同過濾
1.3 項目開發工具
2 Movielens數據集簡介
- MovieLens是推薦系統常用的數據集;
MovieLens數據集中,用戶對自己看過的電影進行評分,分值為1~5;
MovieLens包括兩個不同大小的庫,適用於不同規模的算法;
·小規模的庫事943個獨立用戶對1682部電影做的10000次評分的數據;
·大規模的庫事6040個獨立用戶對3900部電影做的100萬次評分的數據;
數據集下載地址:http://files.grouplens.org/datasets/movielens/ml-100k.zip
3 數據探索
3.1 導入小規模的庫數據
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
data=pd.read_csv('ml-100k/u.data',sep='\t',names=['user_id','item_id','rating','timestamp'])
data.head()
3.2 數據探索及發現
# 數據信息查看
data.info()
# 數據描述
data.describe()
data.user_id.nunique() # nunique() --> 返回不重復user_id的個數,統計用戶的個數
data.item_id.nunique() # 統計被評價電影的個數
>> 943
>> 1682
data.duplicated(subset=['user_id','item_id']).sum() # 查看user_id與item_id是否有重復的情況
>> 0
從導入的數據可以看出,user_id共有943個,item_id共有1682個,與數據對於的user_id及item_id的編號剛好是1~943和1~1682,可見數據已經清洗好的,不需要重新處理
然后將數據集拆分為訓練集和測試集,分別進行處理
且user_id與item_id均不存在重復的情況,數據可以直接使用。
3.3 數據檢查
3.3.1 查看每個物品對應用戶的數量
a. 根據item_id分類聚合
# 統計每個物品對應的用戶數
item_id_usercnt = train_data.groupby('item_id').count().user_id
item_id_usercnt[:5]
b. 直方圖展示
# 展示分類聚合結果
plt.hist(item_id_usercnt.values)
plt.show()
c. 查看十分位數
# 分別查看每一物品對應的用戶的十分位數(十分位數、二十分位數...一百分位數)
item_id_usercnt.quantile(q=np.arange(0,1.1,0.1))
d. 物品對應用戶數量數據查看發現
約有30%左右的物品對應的用戶數少於10個,對這部分物品計算與其他物品的相似度不會太准確
3.3.2 查看每個用戶對應物品的數量
a. 根據user_id分類聚合
# 統計每個用戶對應的物品數
user_id_itemcnt = train_data.groupby('user_id').count().item_id
user_id_itemcnt[:5]
b. 直方圖展示
# 展示分類聚合結果
plt.hist(user_id_itemcnt.values)
plt.show()
c. 查看十分位數
# 分別查看每一用戶對應的物品的十分位數(十分位數、二十分位數...一百分位數)
user_id_itemcnt.quantile(q=np.arange(0,1.1,0.1))
d. 物品對應用戶數量數據查看發現
從每個用戶對應的物品數量至少為20個的情況來看,基於用戶相似度的准確度會比基於物品要好
3.4 構建用戶-物品矩陣
3.4.1 獲取矩陣行數m、列數n
# 通過nunique()方法分別獲得user_id、item_id的去重計數
m_users = train_data.user_id.nunique() #
n_items = train_data.item_id.nunique()
3.4.2 創建一個全是0的m*n的矩陣並向矩陣中填充對應數據
user_item_matrix = np.zeros((m_users,n_items)) # 創建一個全是0的m*n的矩陣
'''
itertuples() 將每一行轉換為對應的元組,且數據一一對應
for line in data.head().itertuples():
print(line)
>> Pandas(Index=0, user_id=196, item_id=242, rating=3, timestamp=881250949)
>> Pandas(Index=1, user_id=186, item_id=302, rating=3, timestamp=891717742)
>> Pandas(Index=2, user_id=22, item_id=377, rating=1, timestamp=878887116)
>> Pandas(Index=3, user_id=244, item_id=51, rating=2, timestamp=880606923)
>> Pandas(Index=4, user_id=166, item_id=346, rating=1, timestamp=886397596)
'''
for line in data.itertuples():
user_item_matrix[line[1]-1,line[2]-1]=line[3]
'''
因為user_id 和 item_id都是從1開始編號的,而矩陣的索引是從零開始
data數據的第二列為user_id,第三列為item_id,第三列則為對應user對item的評分
'''
user_item_matrix #展示一下用戶物品矩陣
3.4.3 查看用戶-物品矩陣的稀疏性
# 統計矩陣中非0值的個數與矩陣總元素個數的比值,保留3位小數
sparsity = round(len(user_item_matrix.nonzero()[1])/float(m_users*n_items),3)
sparsity
>> 0.063
發現:用戶-物品 矩陣非常稀疏,只有6%的用戶物品有互動記錄
4 基於item的協同過濾推薦系統
4.1 物品相似度矩陣
4.2 基於item的協同過濾推薦 - 預測原理
4.3 代碼實現
import numpy as np
import pandas as pd
# 導入數據
data=pd.read_csv('ml-100k/u.data',sep='\t',names=['user_id','item_id','rating','timestamp'])
# 用戶物品統計
n_users = data.user_id.nunique()
n_items = data.item_id.nunique()
# 拆分數據集
from sklearn.model_selection import train_test_split
train_data,test_data =train_test_split(data,test_size=0.3) #按照訓練集70%,測試集30%的比例對數據進行拆分
# 訓練集 用戶-物品 矩陣
user_item_matrix = np.zeros((n_users,n_items))
for line in train_data.itertuples():
user_item_matrix[line[1]-1,line[2]-1] = line[3]
# 構建物品相似矩陣 - 使用sklearn.metrics.pairwise中的cosine計算余弦距離
'''
采用余弦距離計算相似度
如果兩個物品在同一條水平線上,則其夾角為零,對應的余弦值為1,代表完全相似
如果兩個物品處於垂直的方向上,其夾角為90度,那么其余弦值為0,代表毫不相干
'''
from sklearn.metrics.pairwise import pairwise_distances
# 相似度計算定義為余弦距離
item_similarity_m = pairwise_distances(user_item_matrix.T,metric='cosine')
# 物品相似矩陣探索
'''
item_similarity_m.shape >> (1682, 1682)
item_similarity_m[0:5,0:5].round(2) # 取5*5的矩陣查看其保留兩位小數的數據
# pairwise_distances模塊在計算物品相似性時,不會計算自己與自己的相似性,所以所以對角線的值都為0
>> array([[0. , 0.67, 0.73, 0.7 , 0.81],
[0.67, 0. , 0.84, 0.64, 0.82],
[0.73, 0.84, 0. , 0.8 , 0.85],
[0.7 , 0.64, 0.8 , 0. , 0.76],
[0.81, 0.82, 0.85, 0.76, 0. ]])
'''
# 現在我們只分析上三角,得到等分位數
item_similarity_m_triu = np.triu(item_similarity_m,k=1) # 取得上三角數據
item_sim_nonzero = np.round(item_similarity_m_triu[item_similarity_m_triu.nonzero()],3)
'''
# 上三角矩陣
arr=np.linspace(1,9,9).reshape(3,3)
arr
>> array([[1., 2., 3.],
[4., 5., 6.],
[7., 8., 9.]])
np.triu(arr,k=1) # 默認k=0,k的值正數表示向右上角移對應個單位,把對應位置全部變為0
>> array([[0., 2., 3.],
[0., 0., 6.],
[0., 0., 0.]])
'''
# 查看十分位數
np.percentile(item_sim_nonzero,np.arange(0,101,10))
>> array([0. , 0.829, 0.884, 0.919, 0.948, 0.976, 1., 1.,1. , 1. , 1. ])
可以看出相似性得分普遍偏大,相似度沒有比較好的可區分性。
4.4 訓練集預測
user_item_precdiction = user_item_matrix.dot(item_similarity_m) / np.array([np.abs(item_similarity_m).sum(axis=1)])
# 除以np.array([np.abs(item_similarity_m).sum(axis=1)]是為了可以使評分在1~5之間,使1~5的標准化
# 只取數據集中有評分的數據集進行評估
from sklearn.metrics import mean_squared_error
from math import sqrt
prediction_flatten = user_item_precdiction[train_item_matrix.nonzero()]
user_item_matrix_flatten = train_item_matrix[train_item_matrix.nonzero()]
error_train = sqrt(mean_squared_error(prediction_flatten,user_item_matrix_flatten)) # 均方根誤差計算
print('訓練集預測均方根誤差:',error_train)
>> 訓練集預測均方根誤差:3.4714925320107684
4.5 測試集預測
test_data_matrix = np.zeros((n_users,n_items))
for line in test_data.itertuples():
test_data_matrix[line[1]-1,line[2]-1]=line[3]
# 預測矩陣
item_prediction = test_data_matrix.dot(item_similarity_m) / np.array(np.abs(item_similarity_m).sum(axis=1))
# 只取數據集中有評分的數據集進行評估
prediction_flatten = user_item_precdiction[test_data_matrix.nonzero()]
test_data_matrix_flatten = test_data_matrix[test_data_matrix.nonzero()]
error_test = sqrt(mean_squared_error(prediction_flatten,test_data_matrix_flatten)) # 均方根誤差計算
print('測試集預測均方根誤差:',error_test)
>> 測試集預測均方根誤差:3.4645810277607487
4.6 單模型結果提示思路
4.6.1 改變相似度算法 - 采用歐式距離
# 相似度計算定義為歐式距離
item_similarity_m = pairwise_distances(user_item_matrix.T,metric='euclidean')
>> 訓練集預測均方根誤差:3.3818902386408056
>> 測試集預測均方根誤差:3.3763275676001396
4.6.2 增加訓練集比例
from sklearn.model_selection import train_test_split
train_data,test_data =train_test_split(data,test_size=0.2)
>> 訓練集預測均方根誤差:3.4464124130045506
>> 測試集預測均方根誤差:3.4247175440782516
4.6.3 增加訓練集的同時采用歐式距離
>> 訓練集預測均方根誤差:3.3395618010919823
>> 測試集預測均方根誤差:3.339569787071282
4.7 基於item協同過濾推薦系統結果分析
- 1、通過改變物品矩陣相似度(采用歐式距離)的計算方法可以看出預測效果略有提升;
- 2、通過增加訓練集的方法對預測結果略有提升,但並不明顯;
- 3、在增加訓練集的同時采用歐式距離計算相似度發現預測效果提升最好,但均方根誤差依然很大,與之前預測(物品是分位數查看結果,其區分性並不是很好)相符;
- 4、因而在此例中使用基於item的協同過濾推薦系統並不理想。
5 基於user的協同過濾的推薦系統
5.1 用戶相似矩陣
5.2 基於user的協同過濾的推薦系統 - 預測原理
5.3 代碼實現
# 導入數據
import numpy as np
import pandas as pd
data=pd.read_csv('ml-100k/u.data',sep='\t',names=['user_id','item_id','rating','timestamp'])
# 用戶物品統計
n_users = data.user_id.nunique()
n_items = data.item_id.nunique()
# 拆分數據集
from sklearn.model_selection import train_test_split
# 按照訓練集70%,測試集30%的比例對數據進行拆分
train_data,test_data =train_test_split(data,test_size=0.3)
# 訓練集 用戶-物品 矩陣
user_item_matrix = np.zeros((n_users,n_items))
for line in train_data.itertuples():
user_item_matrix[line[1]-1,line[2]-1] = line[3]
# 構建用戶相似矩陣 - 采用余弦距離
from sklearn.metrics.pairwise import pairwise_distances
# 相似度計算定義為余弦距離
user_similarity_m = pairwise_distances(user_item_matrix,metric='cosine') # 每個用戶數據為一行,此處不需要再進行轉置
user_similarity_m[0:5,0:5].round(2) # 取5*5的矩陣查看其保留兩位小數的數據
'''
>> array([[0. , 0.85, 0.96, 0.96, 0.74],
[0.85, 0. , 0.99, 0.84, 0.93],
[0.96, 0.99, 0. , 0.77, 0.97],
[0.96, 0.84, 0.77, 0. , 0.97],
[0.74, 0.93, 0.97, 0.97, 0. ]])
'''
# 現在我們只分析上三角,得到等分位數
user_similarity_m_triu = np.triu(user_similarity_m,k=1) # 取得上三角數據
user_sim_nonzero = np.round(user_similarity_m_triu[user_similarity_m_triu.nonzero()],3)
np.percentile(user_sim_nonzero,np.arange(0,101,10))
>> array([0.266,0.752,0.804,0.842,0.871,0.896,0.919,0.941,0.962,0.991, 1. ])
可以看出用戶矩陣的相似性區分性還是比較好的
5.4 訓練集預測
mean_user_rating = user_item_matrix.mean(axis=1)
rating_diff = (user_item_matrix - mean_user_rating[:,np.newaxis]) # np.newaxis作用:為mean_user_rating增加一個維度,實現加減操作
user_precdiction = mean_user_rating[:,np.newaxis] + user_similarity_m.dot(rating_diff) / np.array([np.abs(user_similarity_m).sum(axis=1)]).T
# 處以np.array([np.abs(item_similarity_m).sum(axis=1)]是為了可以使評分在1~5之間,使1~5的標准化
# 只取數據集中有評分的數據集進行評估
from sklearn.metrics import mean_squared_error
from math import sqrt
prediction_flatten = user_precdiction[user_item_matrix.nonzero()]
user_item_matrix_flatten = user_item_matrix[user_item_matrix.nonzero()]
error_train = sqrt(mean_squared_error(prediction_flatten,user_item_matrix_flatten)) # 均方根誤差計算
print('訓練集預測均方根誤差:',error_train)
>> 訓練集預測均方根誤差:3.165938175006113
5.5 測試集預測
test_data_matrix = np.zeros((n_users,n_items))
for line in test_data.itertuples():
test_data_matrix[line[1]-1,line[2]-1]=line[3]
# 預測矩陣
rating_diff = (test_data_matrix - mean_user_rating[:,np.newaxis]) # np.newaxis作用:為mean_user_rating增加一個維度,實現加減操作
user_precdiction = mean_user_rating[:,np.newaxis] + user_similarity_m.dot(rating_diff) / np.array([np.abs(user_similarity_m).sum(axis=1)]).T
# 只取數據集中有評分的數據集進行評估
prediction_flatten = user_precdiction[user_item_matrix.nonzero()]
user_item_matrix_flatten = user_item_matrix[user_item_matrix.nonzero()]
error_test = sqrt(mean_squared_error(prediction_flatten,user_item_matrix_flatten)) # 均方根誤差計算
print('測試集預測均方根誤差:',error_test)
>> 測試集預測均方根誤差:3.393103348518984
5.6 單模型結果提示思路
5.6.1 改變相似度算法 - 采用歐式距離
# 相似度計算定義為歐式距離
item_similarity_m = pairwise_distances(user_item_matrix.T,metric='euclidean')
>> 訓練集預測均方根誤差:3.1190848133071603
>> 測試集預測均方根誤差:3.3913121798056123
5.6.2 減少訓練集比例 / 增加測試集比例
from sklearn.model_selection import train_test_split
train_data,test_data =train_test_split(data,test_size=0.4)
>> 訓練集預測均方根誤差:3.237884760612846
>> 測試集預測均方根誤差:3.34890617988761
5.6.2 增加訓練集比例
from sklearn.model_selection import train_test_split
train_data,test_data =train_test_split(data,test_size=0.2)
>> 訓練集預測均方根誤差:3.094954182470391
>> 測試集預測均方根誤差:3.435958471375406
5.6.3 增加測試集的同時采用歐式距離
>> 訓練集預測均方根誤差:3.1925775976328934
>> 測試集預測均方根誤差:3.330738557937318
5.7 基於user協同過濾推薦系統結果分析
- 1、采用歐式距離的情況下,訓練集數據預測效果提升較測試集明顯;
- 2、運行結果顯示基於user的預測結果在測試集上普遍不如在訓練集上的預測結果。分析其原因:a.user相似矩陣本身太小(943*943),遠小於item相似矩陣的(1682*1682);b.在原因a的基礎上,測試集的矩陣就更小;
- 2、因而基於user協同過濾系統中,分別采用了減小/增大訓練集兩種優化方法對模型進行了測試,發現只要數據集增大,其預測效果就有提升;
- 3、在減小訓練集並采用歐式距離的情況下,模型在測試集的預測效果有所提升,但依然不理想;
- 4、與基於item的協同過濾系統相比,基於user協同過濾系統模型預測效果明顯略微優秀。
6 基於SVD協同過濾推薦系統
6.1 SVD協同推薦系統原理
6.2 代碼實現
# 導入數據
import numpy as np
import pandas as pd
data=pd.read_csv('ml-100k/u.data',sep='\t',names=['user_id','item_id','rating','timestamp'])
# 拆分數據集並分別構建用戶-物品矩陣
# 用戶物品統計
n_users = data.user_id.nunique()
n_items = data.item_id.nunique()
from sklearn.model_selection import train_test_split
# 按照訓練集70%,測試集30%的比例對數據進行拆分
train_data,test_data =train_test_split(data,test_size=0.3)
# 訓練集 用戶-物品 矩陣
train_data_matrix = np.zeros((n_users,n_items))
for line in train_data.itertuples():
train_data_matrix[line[1]-1,line[2]-1] = line[3]
# 測試集 用戶-物品 矩陣
test_data_matrix = np.zeros((n_users,n_items))
for line in train_data.itertuples():
test_data_matrix[line[1]-1,line[2]-1] = line[3]
# SVD矩陣
import scipy.sparse as sp
from scipy.sparse.linalg import svds
# 奇異值分解,超參數k的值就是設定要留下的特征值的數量
u, s, vt = svds(train_data_matrix,k=20)
s_diag_matrix = np.diag(s)
svd_prediction = np.dot(np.dot(u,s_diag_matrix),vt)
'''
print(u.shape) >> (943, 20)
print(s.shape) >> (20,)
print(vt.shape) >> (20, 1682)
print(s_diag_matrix.shape) >> (20, 20)
print(svd_prediction.shape) >> (943, 1682)
'''
# 預測值限定最小值和最大值
# 預測值小於0的均設置為0,大於5的均設置為5
svd_prediction[svd_prediction < 0] =0
svd_prediction[svd_prediction > 5] =5
6.3 訓練集預測
# 只取預測數據中有評分的數據,進行評估
from sklearn.metrics import mean_squared_error
from math import sqrt
prediction_flatten = svd_prediction[train_data_matrix.nonzero()]
train_data_matrix_flatten = train_data_matrix[train_data_matrix.nonzero()]
error_train = sqrt(mean_squared_error(prediction_flatten,train_data_matrix_flatten))
print('訓練集預測均方根誤差:',error_train)
>> 訓練集預測均方根誤差:2.440629842312816
6.4 測試集預測
prediction_flatten = svd_prediction[test_data_matrix.nonzero()]
test_data_matrix_flatten = test_data_matrix[test_data_matrix.nonzero()]
error_test = sqrt(mean_squared_error(prediction_flatten,test_data_matrix_flatten))
print('測試集預測均方根誤差:',error_test)
>> 測試集預測均方根誤差:2.440629842312816
7 三大協同過濾推薦系統總結分析
- 1、總體而言,基於小規模MovieLens數據集的本案例中的三大協同過濾推薦系統,其預測的效果總體上可以表示為:推薦系統預測效果:SVD > user > item。
- 2、根據基於user系統過濾推薦系統的情況可以看出,協同過濾推薦系統的數據越多,且數據之間互動越多,則推薦效果越好,然而一般情況下正是因為互動不夠充分才會需要推薦系統,所以,收集盡可能多的數據,基於大數據的分析就顯的相對比較重要;
- 3 在三大推薦系統中,SCD奇異值推薦系統表現尤為突出,預測的結果相對於其他兩個推薦系統而言有非常大的提升,唯一的缺點就是其難以加以解釋,但不失為是一種非常好的推薦系統。
NMF
參考
https://blog.csdn.net/qq_26225295/article/details/51165858