當前推薦領域一些公開的據集都是關於電影和音樂的(比如Netflix、Movielens等),沒有關於圖書推薦的數據。本文將要介紹的就是一份用於圖書推薦的數據集,該數據來源於goodreads網站,包含1萬本最受歡迎圖書的6百萬評分數據,由以下數據組成:
- 評分數據
- 被用戶標記為想讀的圖書
- 圖書詳情(作者、年份等)
- 圖書標簽
ratings.csv
包含按時間存儲的評分數據,大小為69MB,結構如下:
user_id,book_id,rating
1,258,5
2,4081,4
2,260,5
2,9296,5
2,2318,3
評分范圍1-5;圖書ID是1-10000的連續數字;用戶ID是1-53424的連續數字。
to_read.csv
被用戶標記為想讀的數據,有將近1百萬條按照時間存儲的user_id、book_id對。
books.csv
從goodreads的XML文件中抽取出來的每本書的詳情(goodreads ID、作者、書名、平均分等),XML源文件保存在books_xml目錄下。
books_tags.csv
用戶分配給圖書的標簽,通過ID表示;按照goodreads_book_id升序、count降序存儲,其中count表示有多少用戶為該圖書標記該標簽。
goodreads_book_id,tag_id,count
1,30574,167697
1,11305,37174
1,11557,34173
tags.csv
標簽ID對應的標簽名。
tag_id,tag_name
0,-
19,--your-message-here--
25,-fiction
26,-fictional
27,-fictitious
關於圖書ID
一本書可能有很多版本,goodreads_book_id和best_book_id通常是指最受歡迎的版本。而goodreads中的work_id指的是抽象意義的書,通過該ID會列出該書的所有版本。ratings.csv和to_read.csv中的book_id指的是work_id而不是goodreads_book_id,這意味着不同版本的評分是經過聚合處理的。