Blast進行同源基因的尋找
參考博客:
基於蛋白的比對結果,尋找某一個蛋白家族的同源基因,使用如下的參數
- identity >30%;
- e-value <1e-10;
- score>200
- overlap >60%
首先對感興趣的基因家族蛋白序列建立索引
makeblastdb -in test.fsa -parse_seqids -dbtype prot -out test_db
然后使用blastp比對到建立好索引的數據庫
-outfmt "6 qseqid sseqid pident length mismatch gapopen qstart qend sstart send evalue bitscore qcovs"
blastp -query Bju.chr.modified_id.pep.fa -db MAGL_pep -outfmt "6 qseqid sseqid pident length mismatch gapopen qstart qend sstart send evalue bitscore qcovs" -max_hsps 1 -num_alignments 1 -evalue 1e-10 -num_threads 30 -out Bju.MAGL.v2.txt
如果需要blast比對返回一個最優的比對結果,需要控制-max_target_seqs , -num_alignments 和 -max_hsps 選項:
-max_target_seqs <Integer, >=1>Maximum number of aligned sequences to keepNot applicable for outfmt <= 4* Incompatible with: num_descriptions, num_alignments
-num_alignments <Integer, >=0>Number of database sequences to show alignments for* Incompatible with: max_target_seqs
分割NR子庫
NCB blast-2.8版本可支持用NCBI自帶代碼分割的NR子庫的索引作為比對的庫,使用比較方便
NR庫也要重新下載了ftp://ftp.ncbi.nlm.nih.gov/blast/db/v5/
如果只想比對到單一物種人9606
blastp –db nr –query query.fasta –taxids 9606 –outfmt 6 –out blast.outfm6
比對NR子庫哺乳動物的話,需要先建個哺乳動物子庫tax_id索引
get_species_taxids.sh -t 40674 > 40674.txids
將序列比對至NR哺乳動物子庫
blastp –db nr –query query.fasta –taxidlist 40674.txids –outfmt 6 –out blast.outfm6