八爪魚采集器-抓取有關“新型冠狀病毒感染肺炎疫情”的數據案例
采用八爪魚采集器抓取有關“新型冠狀病毒感染肺炎疫情”的數據。
引用采集模板-國家衛健委-疫情防控動態,本地采集“新型冠狀病毒肺炎疫情”相關的數據,再將其引入MySQL數據庫中。
一、實驗過程
1)首頁搜索“疫情”,會自動找到相對應的模板
如圖1所示:
圖1 模板樣例
2)這里選取采集模板-國家衛健委-疫情防控動態,可查看它的數據樣例
如下圖2所示:
圖2 數據樣例
3)選取采集模板-國家衛健委-疫情防控動態,並點擊“立即使用”
如圖3所示:
圖3 選取模板並使用
4)在“網站類目網址”這個參數框中,輸入疫情通報欄目的網址:http://www.nhc.gov.cn/xcs/yqtb/list_gzbd.shtml ,並設置翻頁次數,然后“啟動本地采集”
如下圖4、圖5所示:
圖4 輸入感興趣的關鍵字、搜索頁數
圖5 啟動本地采集
5)收集完畢,開始導出數據到本地數據庫-MySQL
如下圖6、圖7所示:
圖6 點擊“導出數據”
圖7 選擇“MySQL”
6)設置MySQL數據庫信息
如圖8所示:
圖8 設置MySQL數據庫信息
7)設置數據字段映射關系
如下圖9所示:
圖9 設置數據字段映射關系
這里,我省去了對“正文html”字段的存儲,又因為“正文”的長度原因,將它的數據類型進行特殊設置,設為longtext。
8)導出成功
如圖10所示:
圖10 導出成功提示
二、實驗運行結果(采集數據的結果)
如下圖11所示:
圖11 實驗運行結果
三、出現的問題及解決方法
1)設置MySQL的配置信息時出現的問題
如下圖12所示:
圖12 MySQL配置信息問題
服務器名格式是:機器名(IP)\數據庫實例名。
服務器名稱這項應參考MySQL數據庫中,連接信息中的主機名/IP地址項,如下圖13所示:
圖13 MySQL的連接信息
2)數據庫表結構的設計問題
如下圖14所示:
圖14 數據庫表結構設計的問題
將正文的數據類型進行修改,由varchar改為longtext,如下圖15所示:
圖15 修改正文的數據類型
采集器上顯示的也會出現變化,如圖16所示:
圖16 采集器上的數據類型也隨之改變
這樣修改之后就不會出現數據庫字段長度不夠用的情況了。