用blastall進行序列比對


用blastall進行序列比對

blastall是最常用的blast程序之一,其功能非常強大,其下面有非常多的參數,但是一般使用的參數如:-p、-i、-d、-o、-e等幾個。

  • -p: 執行的程序名稱
  • -d: 搜索的數據庫名稱
  • -i : 要查詢的序列文件名(Query File)
  • -e:(數學)期望值(Expectation value),E值是個統計閾值,缺省值10, 意指比對結果中由於隨機偶然性產生的匹配結果不大於10,E值越小結果越可靠。
  • -o :查詢結果輸出文件名
  • -m: 比對結果顯示格式選項,缺省值為0 ,即pairwise格式。另外還可以根據不同的需要選擇1~6等不同的格式。
  • -I :在描述行中顯示gi號[T/F],缺省值F
  • -v :單行描述(one-line description)的最大數目,缺省值500
  • -b :顯示的比對結果的最大數目,缺省值250
  • -F :對於要查詢的序列做低復雜度區域(low complexity regions, LCR)的過濾[T/F],缺省值T。對blastn用的是DUST程序,其他比對用的是SEG程序。
  • 所謂“低復雜度區域”是指某些或一些殘基過多表現,短周期重復等。對於高等哺乳動物的基因組序列,可以先用RepeatMask程序遮蔽重復元件。在輸出結果中,對LCR區的序列核酸用“N”代替,蛋白質序列用“X”代替。
  • -a:運行BLAST程序所使用的處理器的數目,缺省值1
  • -S:在數據庫中搜索時所使用的核酸鏈(strand),只對blastn、blastx和tblastx有效;1表示top,2表示bottom,3表示both;缺省值3
  • -T: 產生HTML格式的輸出[T/F],缺省值F
  • -n: 使用MegaBlast搜索[T/F],缺省值F
  • -G: 打開一個gap的罰分(0表示使用缺省設置值),默認0
  • -E: 擴展一個gap的罰分(0表示使用缺省設置值),默認0
  • -q: 一個核酸鹼基的錯配(mismatch)的罰分(只對blastn有效),缺省值-3
  • -r : 一個核酸鹼基的正確匹配(match)的獎分(只對blastn有效),缺省值1
  • -M: 所使用的打分矩陣,缺省值BLOSUM62

1.1.1.    參數說明

基本參數、比對優化參數、結果輸出參數、控制輸入參數

表:blastall命令的參數說明

參數 說明 默認值 備注
-p 使用的程序 字符[String]   blastnblastpblastx

tblastn

tblastx

-d 使用的數據庫 文件名[File In] nr  
-i 搜索用的序列 文件名[File In] stdin  
-e 期望值 數字[Real] 10.0  
-m 控制比對結果的樣式 0到11的整數[Integer] 0 0 = pairwise,1 = query-anchored showing identities,2 = query-anchored no identities,

3 = flat query-anchored, show identities,

4 = flat query-anchored, no identities,

5 = query-anchored no identities and blunt ends,

6 = flat query-anchored, no identities and blunt ends,

7 = XML Blast output,

8 = tabular,

9 tabular with comment lines

10 ASN, text

11 ASN, binary

-o 比對結果存放的文件名 文件名[File Out] stdout  
-F 過濾詢問序列 [String] T DUST with blastn, SEG with others
-G 打開gap得分 [Integer] -1  
-E 延伸gap得分 [Integer] -1  
-X X dropoff value for gapped alignment (in bits) [Integer] 0 blastn 30, megablast 20, tblastx 0, all others 15
-I 顯示gi號Show GI’s in deflines [T/F] F  
-q 核酸錯配罰分 [Integer] -3 blastn only
-r 核酸匹配得分 [Integer] 1 blastn only
-v Number of database sequences to show one-line descriptions for (V) [Integer] 500  
-b Number of database sequence to show alignments for (B) [Integer] 250  
-f Threshold for extending hits [Integer] 0 blastp 11, blastn 0, blastx 12, tblastn 13, tblastx 13, megablast 0
-g Perform gapped alignment [T/F] T not available with tblastx
-Q 指定詢問序列使用的遺傳密碼 [Integer] 1  
-D 指定數據使用的遺傳密碼 [Integer] 1 for tblast[nx] only
-a 使用CPU的數目 [Integer] 1  
-O SeqAlign file [File Out]   可選
-J Believe the query defline [T/F] F  
-M 比對使用的矩陣 [String] BLOSUM62  
-W Word size [Integer] 0 blastn 11, megablast 28, all others 3
-z 數據庫的有效長度Effective length of the databas [Real] 0 use zero for the real size
-K Number of best hits from a region to keep [Integer] 0 off by default, if used a value of 100 is recommended
-P 0 for multiple hit, 1 for single hit [Integer] 0 does not apply to blastn
-Y Effective length of the search space [Real] 0 use zero for the real size
-S Query strands to search against database [Integer] 3 for blast[nx], and tblastx, 3 is both, 1 is top, 2 is bottom
-T 將結果保存為HTML格式 [T/F] F  
-l 通過gi號列表,限制搜索范圍 [String] Optional  
-U Use lower case filtering of FASTA sequence [T/F] Optional  
-y X dropoff value for ungapped extensions in bits [Real] 0.0 0.0 invokes default behavior blastn 20, megablast 10, all others 7
-Z X dropoff value for final gapped alignment in bits [Integer] 0 blastn/megablast 50, tblastx 0, all others 25
-R PSI-TBLASTN checkpoint file [File In] Optional  
-n MegaBlast search [T/F] F  
-L Location on query sequenc [String] Optional  
-A Multiple Hits window size [Integer] 0 default if zero (blastn/megablast 0, all others 40)
-w Frame shift penalty [Integer] 0 OOF algorithm for blastx
-t Length of the largest intron allowed in a translated nucleotide sequence when linking multiple distinct alignments [Integer] 0 0 invokes default behavior; a negative value disables linking.
-B Number of concatenated queries [Integer] 0 for blastn and tblastn
-V Force use of the legacy BLAST en gine [T/F] F Optional
-C Use composition-based statistics for tblastn [String] D D or d: default (equivalent to F)      0 or F or f: no composition-based statistics      1 or T or t: Composition-based statistics as in NAR 29:2994-3005, 2001

      2: Composition-based score adjustment as in Bioinformatics 21:902-911,

          2005, conditioned on sequence properties

      3: Composition-based score adjustment as in Bioinformatics 21:902-911,

          2005, unconditionally

      For programs other than tblastn, must either be absent or be D, F or 0.

-s Compute locally optimal Smith-Waterman alignments [T/F] F This option is only      available for gapped tblastn.

1.1.2.    使用說明與示例

程序使用說明

程序名 搜索序列 數據庫 說明 備注
blastn 核酸 核酸 用核酸序列搜索核酸數據庫  
blastp 蛋白質 蛋白質 用蛋白質(氨基酸)序列搜索蛋白質數據庫 尋找較高分值的匹配,對較遠關系的不太適用
blastx 核酸 蛋白質 用核酸雙鏈序列理論上的六種框架的所有翻譯結果搜索蛋白質數據庫,用於新的序列和ESTs的分析 轉譯搜索序列
tblastn 蛋白質 核酸 用搜索的蛋白質和數據庫中核酸的 用於尋找數據庫中沒有標注的編碼區
tblastx 核酸 核酸    


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM