八爪鱼采集器-抓取有关“新型冠状病毒感染肺炎疫情”的数据案例
采用八爪鱼采集器抓取有关“新型冠状病毒感染肺炎疫情”的数据。
引用采集模板-国家卫健委-疫情防控动态,本地采集“新型冠状病毒肺炎疫情”相关的数据,再将其引入MySQL数据库中。
一、实验过程
1)首页搜索“疫情”,会自动找到相对应的模板
如图1所示:
图1 模板样例
2)这里选取采集模板-国家卫健委-疫情防控动态,可查看它的数据样例
如下图2所示:
图2 数据样例
3)选取采集模板-国家卫健委-疫情防控动态,并点击“立即使用”
如图3所示:
图3 选取模板并使用
4)在“网站类目网址”这个参数框中,输入疫情通报栏目的网址:http://www.nhc.gov.cn/xcs/yqtb/list_gzbd.shtml ,并设置翻页次数,然后“启动本地采集”
如下图4、图5所示:
图4 输入感兴趣的关键字、搜索页数
图5 启动本地采集
5)收集完毕,开始导出数据到本地数据库-MySQL
如下图6、图7所示:
图6 点击“导出数据”
图7 选择“MySQL”
6)设置MySQL数据库信息
如图8所示:
图8 设置MySQL数据库信息
7)设置数据字段映射关系
如下图9所示:
图9 设置数据字段映射关系
这里,我省去了对“正文html”字段的存储,又因为“正文”的长度原因,将它的数据类型进行特殊设置,设为longtext。
8)导出成功
如图10所示:
图10 导出成功提示
二、实验运行结果(采集数据的结果)
如下图11所示:
图11 实验运行结果
三、出现的问题及解决方法
1)设置MySQL的配置信息时出现的问题
如下图12所示:
图12 MySQL配置信息问题
服务器名格式是:机器名(IP)\数据库实例名。
服务器名称这项应参考MySQL数据库中,连接信息中的主机名/IP地址项,如下图13所示:
图13 MySQL的连接信息
2)数据库表结构的设计问题
如下图14所示:
图14 数据库表结构设计的问题
将正文的数据类型进行修改,由varchar改为longtext,如下图15所示:
图15 修改正文的数据类型
采集器上显示的也会出现变化,如图16所示:
图16 采集器上的数据类型也随之改变
这样修改之后就不会出现数据库字段长度不够用的情况了。