bwa比對軟件的使用以及其結果文件(sam)格式說明


一、bwa比對軟件的使用

1、對參考基因組構建索引

bwa index -a bwtsw hg19.fa   #  -a 參數:is[默認] or bwtsw,即bwa構建索引的兩種算法,兩種算法都是基於BWT的(BWT search while the CIGAR string by Smith-Waterman alignment.)。-a bwtsw對於短的參考序列是不工作的,必須要大於等於10Mb;-a is 不適用於大的參考序列,必須要小於等於2G;

output:hg19.fa.amb、hg19.fa.ann、hg19.fa.bwt、hg19.fa.pac和hg19.fa.sa

2、尋找輸入reads文件的SA坐標

對於pair end數據,每個reads文件單獨做運算,single end數據就不用說了,只有一個文件。

 pair end:

 bwa  aln  hg19.fa  read1.fq.gz  -l 30  -k 2  -t 4  -I  > read1.fq.gz.sai   or   bwa  aln  hg19.fa  read1.fq.gz  -l 30  -k 2  -t 4  -I -f read1.fq.gz.sai

 bwa  aln  hg19.fa  read2.fq.gz  -l 30  -k 2  -t 4  -I  > read2.fq.gz.sai   or   bwa  aln  hg19.fa  read2.fq.gz  -l 30  -k 2  -t 4  -I -f read2.fq.gz.sai

 single end:

 bwa  aln  hg19.fa  read.fq.gz  -l 30  -k 2  -t 4  -I  > read.fq.gz.sai       or   bwa  aln  hg19.fa  read.fq.gz  -l 30  -k 2  -t 4  -I  -f  read.fq.gz.sai 

主要參數說明:

-o int:允許出現的最大gap數。

-e int:每個gap允許的最大長度。

-d int:不允許在3’端出現大於多少bp的deletion。

-i int:不允許在reads兩端出現大於多少bp的indel。

-l int:Read前多少個鹼基作為seed,如果設置的seed大於read長度,將無法繼續,最好設置在25-35,與-k 2 配合使用。

-k int:在seed中的最大編輯距離,使用默認2,與-l配合使用。

-t int:要使用的線程數。

-R int:此參數只應用於pair end中,當沒有出現大於此值的最佳比對結果時,將會降低標准再次進行比對。增加這個值可以提高配對比對的准確率,但是同時會消耗更長的時間,默認是32。

-I int:表示輸入的文件格式為Illumina 1.3+數據格式。

-B int:設置標記序列。從5’端開始多少個鹼基作為標記序列,當-B為正值時,在比對之前會將每個read的標記序列剪切,並將此標記序列表示在BC SAM 標簽里,對於pair end數據,兩端的標記序列會被連接。

-b :指定輸入格式為bam格式。bwa  aln  hg19.fa  read.bam  > read.fq.gz.sai

3、生成sam格式的比對文件

如果一條read比對到多個位置,會隨機選擇一種

single end:bwa  samse  hg19.fa  read.fq.gz.sai  read.fq.gz  > read.fq.gz.sam

 參數:

 -n int:如果reads比對次數超過多少次,就不在XA標簽顯示。

 -r str:定義頭文件。‘@RG\tID:foo\tSM:bar’,如果在此步驟不進行頭文件定義,在GATK后續分析中還是需要重新增加頭文件。

pair end:bwa sampe -a 500 read1.fq.gz.sai read2.fq.gz.sai read1.fq.gz read2.fq.gz > read.sam

參數:

-a int:最大插入片段大小。

-o int:pair end兩reads中其中之一所允許配對的最大次數,超過該次數,將被視為single end。降低這個參數,可以加快運算速度,對於少於30bp的read,建議降低-o值。

-r str:定義頭文件。同single end。

-n int:每對reads輸出到結果中的最多比對數。

4、其他

(1)

bwa mem ref.fa reads.fq > aln-se.sam 單端測序

bwa mem ref.fa read1.fq read2.fq > aln-pe.sam 雙端測序

(2)

bwa aln ref.fa short_read.fq > aln_sa.sai

bwa samse ref.fa aln_sa.sai short_read.fq > aln-se.sam

bwa sampe ref.fa aln_sa1.sai aln_sa2.sai read1.fq read2.fq > aln-pe.sam

(3)

bwa bwasw ref.fa long_read.fq > aln.sam

二、sam文件格式說明

1、

XT:A:U/R     Type:Unique/Repeat/N/Mate-sw    # U指第五列比對值>0;R指第五列比對值==0

參考文獻:

1、《GATK使用方法詳解(包含bwa使用)》http://www.tanboyu.com/gatk-bwa.html

2、《bwa英文操作手冊》http://www.chinadmd.com/file/ecaeoaecwzvs3trpxpwtzows_1.html


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM