【Dataset】Goodbooks-10k: 圖書推薦數據


當前推薦領域一些公開的據集都是關於電影和音樂的(比如Netflix、Movielens等),沒有關於圖書推薦的數據。本文將要介紹的就是一份用於圖書推薦的數據集,該數據來源於goodreads網站,包含1萬本最受歡迎圖書的6百萬評分數據,由以下數據組成:

  • 評分數據
  • 被用戶標記為想讀的圖書
  • 圖書詳情(作者、年份等)
  • 圖書標簽

ratings.csv

包含按時間存儲的評分數據,大小為69MB,結構如下:

user_id,book_id,rating
1,258,5
2,4081,4
2,260,5
2,9296,5
2,2318,3

評分范圍1-5;圖書ID是1-10000的連續數字;用戶ID是1-53424的連續數字。

to_read.csv

被用戶標記為想讀的數據,有將近1百萬條按照時間存儲的user_id、book_id對。

books.csv

從goodreads的XML文件中抽取出來的每本書的詳情(goodreads ID、作者、書名、平均分等),XML源文件保存在books_xml目錄下。

books_tags.csv

用戶分配給圖書的標簽,通過ID表示;按照goodreads_book_id升序、count降序存儲,其中count表示有多少用戶為該圖書標記該標簽。

goodreads_book_id,tag_id,count
1,30574,167697
1,11305,37174
1,11557,34173

tags.csv

標簽ID對應的標簽名。

tag_id,tag_name
0,-
19,--your-message-here--
25,-fiction
26,-fictional
27,-fictitious

關於圖書ID

一本書可能有很多版本,goodreads_book_id和best_book_id通常是指最受歡迎的版本。而goodreads中的work_id指的是抽象意義的書,通過該ID會列出該書的所有版本。ratings.csvto_read.csv中的book_id指的是work_id而不是goodreads_book_id,這意味着不同版本的評分是經過聚合處理的。

數據介紹

GitHub


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM