知乎爬蟲之1:開篇序言(附贈爬出的數據庫)


本文由博主原創,轉載請注明出處,原文鏈接:我的博客-知乎爬蟲之開篇序言

git爬蟲項目地址(關注和star在哪里~~):

附贈之前爬取的數據一份(mysql): 鏈接: 只下載不點贊,不star,差評差評~藍瘦香菇)

在知乎看到一個可視化話題的文章,所以一時心血來潮,打算用Java也寫一個爬蟲並且集成到Spring中,結合ECharts生成人物關系,當然,既然爬一次,個人信息也都要獲取到。
那么今天起起(結束日未知,目錄也會根據實際情況進行更新),我將寫一個系列的爬取知乎的爬蟲文章,一直到數據可視化完成(完成后,爬蟲部分將使用Scala重寫)。

1. 預計可視化部分包括

  1. 人物關系可視化
  2. 人員地理分布可視化
  3. 人員大學分布可視化
  4. 男女比例可視化
  5. 用戶點贊可視化

2. 預計內容和目錄

  1. 開篇感言
  2. 爬蟲流程設計
    1. 如何過濾重復數據
    2. 如何在爬取時創建人物關系
  3. 請求分析
    1. 登陸請求分析
    2. 跟隨/關注請求分析
  4. 抓取頁面數據
    1. jsoup抽取頁面內容
  5. 優化
    1. 使用多線程加速
    2. 使用隊列減少數據庫訪問
    3. 實現LRU提高緩存命中率
  6. 基於SpringBoot的簡單應用
    1. 介紹
    2. 簡單配置
  7. 擴展內容
    1. 整合Mybatis
    2. 編寫Jsonp跨域請求API
  8. 走起苦逼的前端
    1. 使用Bootstrop布局
    2. 引入ECharts圖形庫
  9. 再見,吹牛結束。

//吾愛Java(QQ群):170936712(點擊加入)


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM