前言

今天我們就用scrapy爬一波知網的中國專利數據並做簡單的數據可視化分析唄。讓我們愉快地開始吧~

PS：本項目僅供學習交流，實踐本項目時煩請設置合理的下載延遲與爬取的專利數據量，避免給知網服務器帶來不必要的壓力。

開發工具

安裝Python並添加到環境變量，pip安裝需要的相關模塊即可。

我們需要爬取的數據例如下圖所示：

即包括以下這些內容：

爬取思路：

我們可以很容易地發現每個專利的詳情頁url都是類似這樣的：

http://dbpub.cnki.net/grid2008/dbpub/Detail.aspx?DBName=SCPD年份&FileName=專利公開號&QueryID=4&CurRec=1

因此，只要改變專利公開號即可獲得對應專利的詳情頁url(經測試，即使年份對不上也沒關系)，從而獲得對應專利的信息，具體而言代碼實現如下：

All done~完整源代碼詳見個人簡介相關文件。

PS：代碼運行方式為運行main.py文件。

為避免給知網服務器帶來不必要的壓力，這里我們只爬了2014年的一部分知網中國專利數據(就跑了一個多小時吧)，對這些數據進行可視化分析的結果如下。

我們先來看看申請專利的省份分布唄：

然后再來統計一下專利代理機構？

最后再來看看所有專利摘要做成的詞雲唄：

還有所有專利標題做成的詞雲唄：

文章到這里就結束了，感謝你的觀看，關注我每天分享Python系列爬蟲，下篇文章分享Python爬蟲知乎表情包。

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Python爬蟲實戰，Scrapy實戰，爬取並簡單分析安居客租房信息一個簡單的python爬蟲,爬取知乎 Python爬蟲實戰，openpyxl模塊學習，爬取房價信息並簡單的數據分析 Python知乎熱門話題數據的爬取實戰 Python爬蟲從入門到放棄（十九）之 Scrapy爬取所有知乎用戶信息(下) Python網絡爬蟲——前程無憂網數據爬取及可視化分析 Python爬蟲超簡單實戰教程（一）| 爬取國家統計局數據 Python爬取中國天氣網 Python爬蟲實戰，Scrapy實戰，抓取並分析天氣數據主題式網絡爬蟲名稱——爬取中國天氣網數據