本文由博主原創,轉載請注明出處,原文鏈接:我的博客-知乎爬蟲之開篇序言
git爬蟲項目地址(關注和star在哪里~~):https://github.com/MatrixSeven/ZhihuSpider(爬蟲已完結)
附贈之前爬取的數據一份(mysql): 鏈接: https://github.com/MatrixSeven/ZhihuSpider/README.MD 只下載不點贊,不star,差評差評~藍瘦香菇)在知乎看到一個可視化話題的文章,所以一時心血來潮,打算用Java也寫一個爬蟲並且集成到Spring中,結合ECharts生成人物關系,當然,既然爬一次,個人信息也都要獲取到。
那么今天起起(結束日未知,目錄也會根據實際情況進行更新),我將寫一個系列的爬取知乎的爬蟲文章,一直到數據可視化完成(完成后,爬蟲部分將使用Scala重寫)。
1. 預計可視化部分包括
- 人物關系可視化
- 人員地理分布可視化
- 人員大學分布可視化
- 男女比例可視化
- 用戶點贊可視化
2. 預計內容和目錄
- 開篇感言
- 爬蟲流程設計
- 如何過濾重復數據
- 如何在爬取時創建人物關系
- 請求分析
- 登陸請求分析
- 跟隨/關注請求分析
- 抓取頁面數據
- jsoup抽取頁面內容
- 優化
- 使用多線程加速
- 使用隊列減少數據庫訪問
- 實現LRU提高緩存命中率
- 基於SpringBoot的簡單應用
- 介紹
- 簡單配置
- 擴展內容
- 整合Mybatis
- 編寫Jsonp跨域請求API
- 走起苦逼的前端
- 使用Bootstrop布局
- 引入ECharts圖形庫
- 再見,吹牛結束。
//吾愛Java(QQ群):170936712(點擊加入)