基本局部比對搜索工具 (BLAST) 可查找兩個序列之間具有局部相似性的區域。該程序將核苷酸或蛋白質序列與序列數據庫進行比較,並計算匹配的統計顯着性。BLAST 可用於推斷序列之間的功能和進化關系,以及幫助識別基因家族的成員。
下載與安裝
下載地址:https://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/
這里我下載的是 Linux 系統的下的 blast 版本. 下面的使用教程也是在 Linux
系統上
解壓之后放在你想安裝的目錄下,就可以了,可執行文件是在 bin
目錄下
快速使用
構建數據庫
makeblastdb -in <genome.fa> -dbtype nucl -out <db_name> -parse_seqids
# -dbtype <String, `nucl', `prot'>, nucl:輸入的是 DNA 序列, prot: 輸入的是蛋白序列
如果你是使用 ncbi 下載的號的 nr nt 庫就不用自己構建這數據庫了.
比對
blastn -db <db_name> -query <query.fa> -outfmt <INT> -num_threads <INT> -out <output_file>
-outfmt
: 輸出的格式,常用的是 6 或者 7, 其格式內容如下
列名 | 含義 |
---|---|
query acc.ver | 查詢序列名字 |
subject acc.ver | 數據庫鍾序列的名字 |
% identity | 匹配長度占比 |
alignment length | 匹配長度 |
mismatches | 錯配數目 |
gap opens | gap 數目 |
q. start | 匹配上的查詢序列起始位置 |
q. end | 匹配上的查詢序列起始位置 |
s. start | 匹配上的數據庫中的序列起始位置 |
s. end | 匹配上的數據庫中的查詢序列起始位置 |
evalue | 期望值, 值越小,匹配越好 |
bit score | Bit 分值, 值越高,序列相似性越好 |
參考資料:
https://ravilabio.info/notes/bioinformatics/e-value-bitscore.html
https://www.jianshu.com/p/de28be1a3bea