基因家族分析之同源基因的尋找


Blast進行同源基因的尋找

參考博客:

基於蛋白的比對結果,尋找某一個蛋白家族的同源基因,使用如下的參數

  • identity >30%;
  • e-value <1e-10;
  • score>200
  • overlap >60%

首先對感興趣的基因家族蛋白序列建立索引

makeblastdb -in test.fsa -parse_seqids -dbtype prot -out test_db

然后使用blastp比對到建立好索引的數據庫

-outfmt "6 qseqid sseqid pident length mismatch gapopen qstart qend sstart send evalue bitscore qcovs"

blastp -query Bju.chr.modified_id.pep.fa -db MAGL_pep -outfmt "6 qseqid sseqid pident length mismatch gapopen qstart qend sstart send evalue bitscore qcovs" -max_hsps 1  -num_alignments 1 -evalue 1e-10 -num_threads 30  -out Bju.MAGL.v2.txt

如果需要blast比對返回一個最優的比對結果,需要控制-max_target_seqs , -num_alignments 和 -max_hsps 選項:

-max_target_seqs <Integer, >=1>Maximum number of aligned sequences to keepNot applicable for outfmt <= 4* Incompatible with: num_descriptions, num_alignments 
-num_alignments <Integer, >=0>Number of database sequences to show alignments for* Incompatible with: max_target_seqs

分割NR子庫

NCB blast-2.8版本可支持用NCBI自帶代碼分割的NR子庫的索引作為比對的庫,使用比較方便

NR庫也要重新下載了ftp://ftp.ncbi.nlm.nih.gov/blast/db/v5/

如果只想比對到單一物種人9606

blastp –db nr –query query.fasta –taxids 9606 –outfmt 6 –out blast.outfm6

比對NR子庫哺乳動物的話,需要先建個哺乳動物子庫tax_id索引

get_species_taxids.sh -t 40674 > 40674.txids

將序列比對至NR哺乳動物子庫

blastp –db nr –query query.fasta –taxidlist 40674.txids –outfmt 6 –out blast.outfm6


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM