八爪魚采集器-抓取有關“新型冠狀病毒感染肺炎疫情”的數據案例


八爪魚采集器-抓取有關“新型冠狀病毒感染肺炎疫情”的數據案例

采用八爪魚采集器抓取有關“新型冠狀病毒感染肺炎疫情”的數據。

引用采集模板-國家衛健委-疫情防控動態,本地采集“新型冠狀病毒肺炎疫情”相關的數據,再將其引入MySQL數據庫中。

一、實驗過程

1)首頁搜索“疫情”,會自動找到相對應的模板

如圖1所示:

 

                                                             圖1 模板樣例

2)這里選取采集模板-國家衛健委-疫情防控動態,可查看它的數據樣例

如下圖2所示:

 

                                                          圖2 數據樣例

3)選取采集模板-國家衛健委-疫情防控動態,並點擊“立即使用”

如圖3所示:

 

 

                                                 圖3 選取模板並使用

4)在“網站類目網址”這個參數框中,輸入疫情通報欄目的網址:http://www.nhc.gov.cn/xcs/yqtb/list_gzbd.shtml ,並設置翻頁次數,然后“啟動本地采集”

如下圖4、圖5所示:

 

                                                    圖4 輸入感興趣的關鍵字、搜索頁數

 

                                                            圖5 啟動本地采集

5)收集完畢,開始導出數據到本地數據庫-MySQL

如下圖6、圖7所示:

 

                                                         圖6 點擊“導出數據”

 

                                                           圖7 選擇“MySQL”

6)設置MySQL數據庫信息

如圖8所示:

 

                          圖8 設置MySQL數據庫信息

7)設置數據字段映射關系

如下圖9所示:

 

                                  圖9 設置數據字段映射關系

這里,我省去了對“正文html”字段的存儲,又因為“正文”的長度原因,將它的數據類型進行特殊設置,設為longtext。

8)導出成功

如圖10所示:

 

                                 圖10 導出成功提示

二、實驗運行結果(采集數據的結果)

如下圖11所示:

 

                     圖11 實驗運行結果

三、出現的問題及解決方法

1)設置MySQL的配置信息時出現的問題

如下圖12所示:

                                   圖12 MySQL配置信息問題

服務器名格式是:機器名(IP)\數據庫實例名。

服務器名稱這項應參考MySQL數據庫中,連接信息中的主機名/IP地址項,如下圖13所示:

 

                                    圖13 MySQL的連接信息

2)數據庫表結構的設計問題

如下圖14所示:

 

                                  圖14 數據庫表結構設計的問題

將正文的數據類型進行修改,由varchar改為longtext,如下圖15所示:

 

                                       圖15 修改正文的數據類型

采集器上顯示的也會出現變化,如圖16所示:

 

                                  圖16 采集器上的數據類型也隨之改變

這樣修改之后就不會出現數據庫字段長度不夠用的情況了。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM