在SAM輸出的結果中每一行都包括十二項通過Tab分隔(\t),從左到右分別是:
1 QNAME,序列的名字(Read的名字)
2 FLAG, 概括出一個合適的標記,各個數字分別代表
1 序列是一對序列中的一個
2 比對結果是一個pair-end比對的末端
4 沒有找到位點
8 這個序列是pair中的一個但是沒有找到位點
16 在這個比對上的位點,序列與參考序列反向互補
32 這個序列在pair-end中的的mate序列與參考序列反響互補
64 序列是 mate 1
128 序列是 mate 2
假如說標記為以上列舉出的數目,就可以直接推斷出匹配的情況。假如說標記不是以上列舉出的數字,比如說83=(64+16+2+1),就是這幾種情況值和。
3 RNAME,參考序列的名字(染色體)
4 POS,在參考序列上的位置(染色體上的位置)
5 MAPQ, mapping qulity 越高則位點越獨特
bowtie2有時並不能完全確定一個短的序列來自參考序列的哪個位置,特別是對那些比較簡單的序列。但是bowtie2會給出一個值來顯示這個段序列來自某個位點的概率值,這個值就是mapping qulity。Mapping qulity的計算方法是:Q=-10log10p,Q是一個非負值,p是這個序列不來自這個位點的估計值。
假如說一條序列在某個參考序列上找到了兩個位點,但是其中一個位點的Q明顯大於另一個位點的Q值,這條序列來源於前一個位點的可能性就比較大。Q值的差距越大,這獨特性越高。
6 CIGAR,代表比對結果的CIGAR字符串,如37M1D2M1I,這段字符的意思是37個匹配,1個參考序列上的刪除,2個匹配,1個參考序列上的插入。M代表的是alignment match(可以是錯配)
#standard cigar:
#M match
#I insertion
#D deletion
#extended cigar
#N gap
#S substitution
#H hard clipping
#P padding
#= sequence match
#X sequence mismatch
7 RNEXT, mate 序列所在參考序列的名稱; 下一個片段比對上的參考序列的編號,沒有另外的片段,這里是’*‘,同一個片段,用’=‘;
8 PNEXT, mate 序列在參考序列上的位置;下一個片段比對上的位置,如果不可用,此處為0;
9 TLEN,估計出的片段的長度,當mate 序列位於本序列上游時該值為負值。Template的長度,最左邊得為正,最右邊的為負,中間的不用定義正負,不分區段(single-segment)的比對上,或者不可用時,此處為0;
10 SEQ,read的序列;序列片段的序列信息,如果不存儲此類信息,此處為’*‘,注意CIGAR中M/I/S/=/X對應數字的和要等於序列長度;
11 QUAL,ASCII碼格式的序列質量;序列的質量信息,格式同FASTQ一樣。
12 可選的字段(field)
AS:i 匹配的得分
XS:i 第二好的匹配的得分
YS:i mate 序列匹配的得分
XN:i 在參考序列上模糊鹼基的個數
XM:i 錯配的個數
XO:i gap open的個數
XG:i gap 延伸的個數
NM:i 經過編輯的序列
YF:i 說明為什么這個序列被過濾的字符串
YT:Z
MD:Z 代表序列和參考序列錯配的字符串
示例:
HWI-ST170:265:5:44:14178:183344#0 145 1 62421 37 63M1I35M 18 56843949 0 CCTGTATACATAGTAATCAAAGTGTACCACTGGTCGGTGTTTGTGTTCAGGCCCCTGTTGGGTAATGTGCATGTGAAGACCTCAGGTGGTATAGTTTTG CEE?@F@BE@GGEGFBHHEDEEEDEEBEDHHBGHGGFHHDFHHHGGGGFFFEEEHFHFGFHHHHHFHHHFHHHHGHGHEHHHHHHHHHFHHHHHHHHHH RG:Z:DU23M01_Duroc XT:A:U NM:i:4 SM:i:37 AM:i:37 X0:i:1 X1:i:0 XM:i:3 XO:i:1 XG:i:1 MD:Z:20T22C1A52
HWI-ST170:264:5:61:3024:21492#0 113 1 62421 37 63M1I29M = 6885283 6822868 CCTGTATACATAGTAATCAAAGTGTACCACTGGTCGGTGTTTGTGTTCAGGCCCCTGTTGGGTAATGTGCATGTGAAGACCTCAGGTGGTATA @:;9AFGCHFHHHEGGGHDCADA?E@EEDAHFHHFFHHHFFHHHHHHHHHFHFHDHHHHHHHHGHGHHGHFHHHHHHHFHHHHHHHHHHHHHH RG:Z:DU23M01_Duroc XT:A:U NM:i:4 SM:i:37 AM:i:37 X0:i:1 X1:i:0 XM:i:3 XO:i:1 XG:i:1 MD:Z:20T22C1A46
FCC1L2FACXX:3:2106:15923:93264 99 1 1073 0 100M = 1461 488 TGTGAAGGCCCCCTGCTCTGACTGTGTTAGTGTCCATTTCTCCTTTTACGGTTGTAGCAGTTGCCTTCTACATTGCGGGGATCCTGTATTGGGTGCATGT ___eceeegfggggdgiiifghii[degfhfgfdffhhhfhfghiiighiiH^`Vbgfffihhiiiihhddbdgfgccca][^bbbbbccbca[X^Y_b_ MD:Z:98A1 PG:Z:MarkDuplicatesRG:Z:SRR949625 NM:i:1 AS:i:98 XS:i:98
FCC1L2FACXX:3:2111:13731:89147 163 1 1073 7 100M = 1438 465 TGTGAAGGCCCCGTGCTCTGACTGTGTTAGTGTCCATTTCTCCTTTTACGGTTGTAGCAGTTGCCTTCTACATTGCGGGGATCCTGTATTGGGTGCATAT bbaeeeeefggggefhiiiihiiicgghhigdehhhiiihiieffhiihihbggdghihfgffhihihf`geed_cecac]accb]_bcccbc^a_bcbb MD:Z:12C87 PG:Z:MarkDuplicatesRG:Z:SRR949625 NM:i:1 AS:i:95 XS:i:95
REF:
https://samtools.github.io/hts-specs/SAMv1.pdf
https://genome.sph.umich.edu/wiki/SAM