blast+本地化的構建對於流程化處理大量數據序列很方便,blast+是將blast模塊化,分為了蛋白質序列比對蛋白數據庫(blastp)、核酸序列比對核酸數據庫(blastn)、核酸序列比對蛋白質數據庫(blastx)、蛋白質比對翻譯后的核酸數據庫(tblastn)、
翻譯后的核酸序列比對翻譯后的核酸數據庫(tblastx)
BLAST+ 鏈接地址: ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST
得到最新版本的blast+壓縮包:ncbi-blast-2.9.0+-x64-win64.tar.gz
對安裝包進行解壓:
[wangh@master Softbacks]$ tar -zxvf ncbi-blast-2.9.0+-x64-linux.tar.gz
[wangh@master Softbacks]$ cd ncbi-blast-2.9.0+
[wangh@master ncbi-blast-2.9.0+]$ vim ~/.bashrc # 對blast+進行環境配置,進入變量配置環境中后,按i或者o切換到插入(編輯模式下)輸入下列路徑
# ncbi-blast
export PATH=/path/ncbi-blast-2.9.0+/bin/:$PATH
#######按Esc鍵退出編輯環境,再輸入 :wq 命令進行寫入保存(w)退出(q) 按回車鍵(Enter)退出
[wangh@master ncbi-blast-2.9.0+]$ source ~/.bashrc #刷新你的環境配置文件,使得系統識別你剛加入的環境變量(也可以關閉當前終端再次打開,系統自動刷新環境配置文件)
blastp 的用法:
數據庫從PDB中下載: ftp://ftp.wwpdb.org/pub/pdb/derived_data/pdb_seqres.txt
用cd-hit處理去冗余(解壓后加變量后就能用)
$: cd-hit -i /path/pdb_seqres_simp.fasta -o PDB_simp.fasta -c 0.9
格式化數據庫:
$: makeblastdb –in PDB_simp.fasta –dbtype prot –out PDB
-in:待格式化處理的fasta文件(一般是從PDB/NCBI里下載所有的相關或者整個庫中的序列);
-dbtype: 數據庫類型,prot或者nucl;
-out: 輸出的數據庫名;
蛋白質比對蛋白數據庫(blastp):
blastp –query name.fasta –out name.blast –db PDB –outfmt 6 –evalue 1e-5 –num_threads 11 –max_target_seqs 6
-query: 輸入文件路徑及文件名(.fasta格式);
-out: 輸出文件路徑及文件名(.blast);
-db: 格式化了的數據庫路徑及數據庫名(數據庫可以從PDB/NCBI里下載所有的相關/整個庫中的序列);
-outfmt:輸出的文件格式,6是tabular格式對應BLAST的m8格式;
-evalue: 設置輸出結果的e-value值;
-max_target_seqs:找到最大的目標的數目,也可以用-num_descriptions,tabular格式輸出結果的條數;
-num_threads :線程數,並行運行時,縮短計算時間。