Python GISAID 病例數據下載
介紹
初遇GISAID,要下載里面的數據,可謂是難於登天。
我自制了一份python腳本,運行穩定;效率高;隨機休息,不易被檢測封號,放在了下面的鏈接里,用於下載EpiCoV的病例數據。
下載fastaDNA序列文件請進主頁看我的另一篇文章python GISAID 網站爬蟲:fasta文件下載 - 小魚圓又圓 - 博客園 (cnblogs.com)。
關鍵詞: GISAID;下載;病例數據;腳本;python;自動化。
網站
爬蟲介紹
文件地址:
c4-driod/GISAID-spiders: A selenium spider for GISAID (github.com)
解壓后點擊gui.py即可開始運行
爬蟲會自動勾選“w/patient”選項,然后爬取起止日期屬於Submission Date的病例數據:
下面這個界面上的所有信息(包括fasta),儲存到文本文件中。
需要提前安裝的包
win徽標 + R鍵, 輸入cmd,打開DOS窗口,依次輸入下面三行代碼進行安裝。
pip install pillow pip install selenium pip install scikit-image
此外,還需要下載符合當前chrome版本的chromedriver
(百度搜"chromedriver",請自行下載,版本號在谷歌瀏覽器地址欄輸入:“chrome://version”查看)
更多相關內容請訪問我的主頁