python GISAID 网站爬虫:fasta文件下载


python GISAID 网站爬虫:fasta文件下载

 关键词: GISAID;下载;fasta数据;DNA序列;脚本;python;自动化。

简介:

GISAID是流行病毒共享组织,网址“www.gisaid.org”,服务器位于美国洛杉矶、旧金山等地, 需要教育邮箱注册账号才能访问其数据。它的网站比较老旧,其中的病例数据、DNA序列文件有单次获取量限制。网站管理员从不回复任何消息。最关键的是,网站代码是动态的、并且有验证码,所以爬虫初学者往往很难在几周之内完成这个爬虫。

我已经写好了fasta文件和病例信息自动化获取的程序,发布在博客园。(估计也没人会转载吧,想拿就随便拿去吧)

使用步骤:

1.安装python

安装好python, 将python安装路径加入系统路径Path

2. 安装selenium软件包

同时按住win徽标键 + R键,输入cmd打开DOS窗口,

 输入命令:

pip install selenium

3.下载火狐浏览器selenium驱动

下载火狐;

Issues · mozilla/geckodriver (github.com) ,下载对应版本的geckodriver驱动,解压出geckodriver.exe。

 

 

4.下载脚本并运行

c4-driod/GISAID-spiders: A selenium spider for GISAID (github.com)下载gis_fasta文件,将geckodriver.exe放入脚本所在目录。

双击“start_gui.py”,输入信息,开始运行(界面有更新,这里懒得放了)。

 

 

 

 


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM