python GISAID 網站爬蟲:fasta文件下載
關鍵詞: GISAID;下載;fasta數據;DNA序列;腳本;python;自動化。
簡介:
GISAID是流行病毒共享組織,網址“www.gisaid.org”,服務器位於美國洛杉磯、舊金山等地, 需要教育郵箱注冊賬號才能訪問其數據。它的網站比較老舊,其中的病例數據、DNA序列文件有單次獲取量限制。網站管理員從不回復任何消息。最關鍵的是,網站代碼是動態的、並且有驗證碼,所以爬蟲初學者往往很難在幾周之內完成這個爬蟲。
我已經寫好了fasta文件和病例信息自動化獲取的程序,發布在博客園。(估計也沒人會轉載吧,想拿就隨便拿去吧)
使用步驟:
1.安裝python
安裝好python, 將python安裝路徑加入系統路徑Path
2. 安裝selenium軟件包
同時按住win徽標鍵 + R鍵,輸入cmd打開DOS窗口,
輸入命令:
pip install selenium
3.下載火狐瀏覽器selenium驅動
下載火狐;
在Issues · mozilla/geckodriver (github.com) ,下載對應版本的geckodriver驅動,解壓出geckodriver.exe。
4.下載腳本並運行
在c4-driod/GISAID-spiders: A selenium spider for GISAID (github.com)下載gis_fasta文件,將geckodriver.exe放入腳本所在目錄。
雙擊“start_gui.py”,輸入信息,開始運行(界面有更新,這里懶得放了)。
![]()
|
![]()
|