python GISAID 网站爬虫:fasta文件下载
关键词: GISAID;下载;fasta数据;DNA序列;脚本;python;自动化。
简介:
GISAID是流行病毒共享组织,网址“www.gisaid.org”,服务器位于美国洛杉矶、旧金山等地, 需要教育邮箱注册账号才能访问其数据。它的网站比较老旧,其中的病例数据、DNA序列文件有单次获取量限制。网站管理员从不回复任何消息。最关键的是,网站代码是动态的、并且有验证码,所以爬虫初学者往往很难在几周之内完成这个爬虫。
我已经写好了fasta文件和病例信息自动化获取的程序,发布在博客园。(估计也没人会转载吧,想拿就随便拿去吧)
使用步骤:
1.安装python
安装好python, 将python安装路径加入系统路径Path
2. 安装selenium软件包
同时按住win徽标键 + R键,输入cmd打开DOS窗口,
输入命令:
pip install selenium
3.下载火狐浏览器selenium驱动
下载火狐;
在Issues · mozilla/geckodriver (github.com) ,下载对应版本的geckodriver驱动,解压出geckodriver.exe。
4.下载脚本并运行
在c4-driod/GISAID-spiders: A selenium spider for GISAID (github.com)下载gis_fasta文件,将geckodriver.exe放入脚本所在目录。
双击“start_gui.py”,输入信息,开始运行(界面有更新,这里懒得放了)。
![]()
|
![]()
|