八爪鱼采集器-抓取有关“新型冠状病毒感染肺炎疫情”的数据案例


八爪鱼采集器-抓取有关“新型冠状病毒感染肺炎疫情”的数据案例

采用八爪鱼采集器抓取有关“新型冠状病毒感染肺炎疫情”的数据。

引用采集模板-国家卫健委-疫情防控动态,本地采集“新型冠状病毒肺炎疫情”相关的数据,再将其引入MySQL数据库中。

一、实验过程

1)首页搜索“疫情”,会自动找到相对应的模板

如图1所示:

 

                                                             图1 模板样例

2)这里选取采集模板-国家卫健委-疫情防控动态,可查看它的数据样例

如下图2所示:

 

                                                          图2 数据样例

3)选取采集模板-国家卫健委-疫情防控动态,并点击“立即使用”

如图3所示:

 

 

                                                 图3 选取模板并使用

4)在“网站类目网址”这个参数框中,输入疫情通报栏目的网址:http://www.nhc.gov.cn/xcs/yqtb/list_gzbd.shtml ,并设置翻页次数,然后“启动本地采集”

如下图4、图5所示:

 

                                                    图4 输入感兴趣的关键字、搜索页数

 

                                                            图5 启动本地采集

5)收集完毕,开始导出数据到本地数据库-MySQL

如下图6、图7所示:

 

                                                         图6 点击“导出数据”

 

                                                           图7 选择“MySQL”

6)设置MySQL数据库信息

如图8所示:

 

                          图8 设置MySQL数据库信息

7)设置数据字段映射关系

如下图9所示:

 

                                  图9 设置数据字段映射关系

这里,我省去了对“正文html”字段的存储,又因为“正文”的长度原因,将它的数据类型进行特殊设置,设为longtext。

8)导出成功

如图10所示:

 

                                 图10 导出成功提示

二、实验运行结果(采集数据的结果)

如下图11所示:

 

                     图11 实验运行结果

三、出现的问题及解决方法

1)设置MySQL的配置信息时出现的问题

如下图12所示:

                                   图12 MySQL配置信息问题

服务器名格式是:机器名(IP)\数据库实例名。

服务器名称这项应参考MySQL数据库中,连接信息中的主机名/IP地址项,如下图13所示:

 

                                    图13 MySQL的连接信息

2)数据库表结构的设计问题

如下图14所示:

 

                                  图14 数据库表结构设计的问题

将正文的数据类型进行修改,由varchar改为longtext,如下图15所示:

 

                                       图15 修改正文的数据类型

采集器上显示的也会出现变化,如图16所示:

 

                                  图16 采集器上的数据类型也随之改变

这样修改之后就不会出现数据库字段长度不够用的情况了。


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM