- bam文件說明
bam文件和sam文件內容其實是一樣的,只是bam是二進制的壓縮文件,需要通過特定的軟件來進行查看,bam文件通常可以理解為12個字段組成
BAM格式分為header section(頭部分,注釋信息,以@開頭,可有可無)和alignment section(比對結果)兩個部分。 - alignment section由11個字段組成
1
序列的名字,也就是reads的名稱
2
是一個標記的數字,是有需要轉換成二進制才能知道代表的意思,各個數字分別代表
`1. 序列是一對序列中的一個`
`2. 比對結果是一個pair-end比對的末端`
`4. 沒有找到位點`
`8. 這個序列是pair中的一個但是沒有找到位點`
`16. 在這個比對上的位點,序列與參考序列反向互補`
`32. 這個序列在pair-end中的的mate序列與參考序列反響互補`
`64. 序列是 mate 1`
`128. 序列是 mate 2`
假如說標記為以上列舉出的數目,就可以直接推斷出匹配的情況。假如說標記不是以上列舉出的數字,比如說83=(64+16+2+1),就是這幾種情況值和,可以使用二進制數來表示
3
參考序列的名字
4
在參考序列上的位置
5
mapping qulity 越高則位點越獨特,比對的質量值
bowtie2有時並不能完全確定一個短的序列來自與參考序列的那個位置,特別是對於那些比較簡單的序列。但是bowtie2會給出一個值來顯示出 這個段序列來自某個位點的概率值,這個值就是mapping qulity。Mapping qulity的計算方法是:Q=-10log10p,Q是一個非負值,p是這個序列不來自這個位點的估計值。
假如說一條序列在某個參考序列上找到了兩個位點,但是其中一個位點的Q明顯大於另一個位點的Q值,這條序列來源於前一個位點的可能性就比較大。Q值的差距越大,這獨特性越高。
Q值的計算方法來自與SAM標准格式,請查看SAM總結。
6
代表比對結果的CIGAR字符串,如37M1D2M1I,這段字符的意思是37個匹配,1個參考序列上的刪除,2個匹配,1個參考序列上的插入。M代表的是alignment match(可以是錯配),可以理解為表示比對的具體情況
7
mate 序列所在參考序列的名稱,mate一般指大的片段序列
8
mate 序列在參考序列上的位置
9
估計出的片段的長度,當mate 序列位於本序列上游時該值為負值。
10
read的序列
11
read序列對應的ASCII碼格式的鹼基質量值
12
可選的區域 header section
其中header section用不同的tag表示不同的信息,主要有@HD,說明符合標准的版本、對比序列的排列順序
;@SQ,參考序列說明
;@RG,比對上的序列(read)說明
;@PG,使用的程序說明
;@CO,任意的說明信息
。Tag以鍵值對的形式存在。
AS:i 匹配的得分
XS:i 第二好的匹配的得分
YS:i mate 序列匹配的得分
XN:i 在參考序列上模糊鹼基的個數
XM:i 錯配的個數
XO:i gap open的個數
XG:i gap 延伸的個數
NM:i 經過編輯的序列
YF:i 說明為什么這個序列被過濾的字符串
YT:Z
MD:Z? 代表序列和參考序列錯配的字符串