前言

今天我们就用scrapy爬一波知网的中国专利数据并做简单的数据可视化分析呗。让我们愉快地开始吧~

PS：本项目仅供学习交流，实践本项目时烦请设置合理的下载延迟与爬取的专利数据量，避免给知网服务器带来不必要的压力。

开发工具

安装Python并添加到环境变量，pip安装需要的相关模块即可。

我们需要爬取的数据例如下图所示：

即包括以下这些内容：

爬取思路：

我们可以很容易地发现每个专利的详情页url都是类似这样的：

http://dbpub.cnki.net/grid2008/dbpub/Detail.aspx?DBName=SCPD年份&FileName=专利公开号&QueryID=4&CurRec=1

因此，只要改变专利公开号即可获得对应专利的详情页url(经测试，即使年份对不上也没关系)，从而获得对应专利的信息，具体而言代码实现如下：

All done~完整源代码详见个人简介相关文件。

PS：代码运行方式为运行main.py文件。

为避免给知网服务器带来不必要的压力，这里我们只爬了2014年的一部分知网中国专利数据(就跑了一个多小时吧)，对这些数据进行可视化分析的结果如下。

我们先来看看申请专利的省份分布呗：

然后再来统计一下专利代理机构？

最后再来看看所有专利摘要做成的词云呗：

还有所有专利标题做成的词云呗：

文章到这里就结束了，感谢你的观看，关注我每天分享Python系列爬虫，下篇文章分享Python爬虫知乎表情包。

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 Python爬虫实战，Scrapy实战，爬取并简单分析安居客租房信息爬虫实战(三) 用Python爬取拉勾网 Python爬虫实战，openpyxl模块学习，爬取房价信息并简单的数据分析 Scrapy 爬虫实战1—股票数据爬取 Python使用Scrapy框架爬取数据存入CSV文件(Python爬虫实战4) 初识python 之爬虫：爬取中国天气网数据 Python知乎热门话题数据的爬取实战简单python爬虫案例(爬取慕课网全部实战课程信息) Python爬虫实战，Scrapy实战，抓取并分析天气数据 Python爬虫实战，爬取A股公司数据，简单分析A股公司并生成词云