基本局部比对搜索工具 (BLAST) 可查找两个序列之间具有局部相似性的区域。该程序将核苷酸或蛋白质序列与序列数据库进行比较,并计算匹配的统计显着性。BLAST 可用于推断序列之间的功能和进化关系,以及帮助识别基因家族的成员。
下载与安装
下载地址:https://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/
这里我下载的是 Linux 系统的下的 blast 版本. 下面的使用教程也是在 Linux
系统上
解压之后放在你想安装的目录下,就可以了,可执行文件是在 bin
目录下
快速使用
构建数据库
makeblastdb -in <genome.fa> -dbtype nucl -out <db_name> -parse_seqids
# -dbtype <String, `nucl', `prot'>, nucl:输入的是 DNA 序列, prot: 输入的是蛋白序列
如果你是使用 ncbi 下载的号的 nr nt 库就不用自己构建这数据库了.
比对
blastn -db <db_name> -query <query.fa> -outfmt <INT> -num_threads <INT> -out <output_file>
-outfmt
: 输出的格式,常用的是 6 或者 7, 其格式内容如下
列名 | 含义 |
---|---|
query acc.ver | 查询序列名字 |
subject acc.ver | 数据库钟序列的名字 |
% identity | 匹配长度占比 |
alignment length | 匹配长度 |
mismatches | 错配数目 |
gap opens | gap 数目 |
q. start | 匹配上的查询序列起始位置 |
q. end | 匹配上的查询序列起始位置 |
s. start | 匹配上的数据库中的序列起始位置 |
s. end | 匹配上的数据库中的查询序列起始位置 |
evalue | 期望值, 值越小,匹配越好 |
bit score | Bit 分值, 值越高,序列相似性越好 |
参考资料:
https://ravilabio.info/notes/bioinformatics/e-value-bitscore.html
https://www.jianshu.com/p/de28be1a3bea