【Dataset】Goodbooks-10k: 圖書推薦數據

本文轉載自查看原文 2018-12-18 11:27 755 Dataset

當前推薦領域一些公開的據集都是關於電影和音樂的(比如Netflix、Movielens等)，沒有關於圖書推薦的數據。本文將要介紹的就是一份用於圖書推薦的數據集，該數據來源於goodreads網站，包含1萬本最受歡迎圖書的6百萬評分數據，由以下數據組成：

評分數據
被用戶標記為想讀的圖書
圖書詳情(作者、年份等)
圖書標簽

ratings.csv

包含按時間存儲的評分數據，大小為69MB，結構如下：

user_id,book_id,rating
1,258,5
2,4081,4
2,260,5
2,9296,5
2,2318,3

評分范圍1-5；圖書ID是1-10000的連續數字；用戶ID是1-53424的連續數字。

to_read.csv

被用戶標記為想讀的數據，有將近1百萬條按照時間存儲的user_id、book_id對。

books.csv

從goodreads的XML文件中抽取出來的每本書的詳情(goodreads ID、作者、書名、平均分等)，XML源文件保存在books_xml目錄下。

books_tags.csv

用戶分配給圖書的標簽，通過ID表示；按照goodreads_book_id升序、count降序存儲，其中count表示有多少用戶為該圖書標記該標簽。

goodreads_book_id,tag_id,count
1,30574,167697
1,11305,37174
1,11557,34173

tags.csv

標簽ID對應的標簽名。

tag_id,tag_name
0,-
19,--your-message-here--
25,-fiction
26,-fictional
27,-fictitious

關於圖書ID

一本書可能有很多版本，goodreads_book_id和best_book_id通常是指最受歡迎的版本。而goodreads中的work_id指的是抽象意義的書，通過該ID會列出該書的所有版本。ratings.csv和to_read.csv中的book_id指的是work_id而不是goodreads_book_id，這意味着不同版本的評分是經過聚合處理的。

數據介紹

GitHub

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。