bam/sam格式說明


在SAM輸出的結果中每一行都包括十二項通過Tab分隔(\t),從左到右分別是:

1 QNAME,序列的名字(Read的名字)

2 FLAG, 概括出一個合適的標記,各個數字分別代表

1     序列是一對序列中的一個

2     比對結果是一個pair-end比對的末端

4     沒有找到位點

8     這個序列是pair中的一個但是沒有找到位點

16   在這個比對上的位點,序列與參考序列反向互補

32   這個序列在pair-end中的的mate序列與參考序列反響互補

64   序列是 mate 1

128 序列是 mate 2

假如說標記為以上列舉出的數目,就可以直接推斷出匹配的情況。假如說標記不是以上列舉出的數字,比如說83=(64+16+2+1),就是這幾種情況值和。

3 RNAME,參考序列的名字(染色體)

4 POS,在參考序列上的位置(染色體上的位置)

5 MAPQ, mapping qulity 越高則位點越獨特

bowtie2有時並不能完全確定一個短的序列來自參考序列的哪個位置,特別是對那些比較簡單的序列。但是bowtie2會給出一個值來顯示這個段序列來自某個位點的概率值,這個值就是mapping qulity。Mapping qulity的計算方法是:Q=-10log10p,Q是一個非負值,p是這個序列不來自這個位點的估計值。

假如說一條序列在某個參考序列上找到了兩個位點,但是其中一個位點的Q明顯大於另一個位點的Q值,這條序列來源於前一個位點的可能性就比較大。Q值的差距越大,這獨特性越高。

 

6 CIGAR,代表比對結果的CIGAR字符串,如37M1D2M1I,這段字符的意思是37個匹配,1個參考序列上的刪除,2個匹配,1個參考序列上的插入。M代表的是alignment match(可以是錯配)

    #standard cigar:
    #M match
    #I insertion
    #D deletion

    #extended cigar
    #N gap
    #S substitution
    #H hard clipping
    #P padding
    #= sequence match
    #X sequence mismatch

7 RNEXT, mate 序列所在參考序列的名稱; 下一個片段比對上的參考序列的編號,沒有另外的片段,這里是’*‘,同一個片段,用’=‘;

8 PNEXT, mate 序列在參考序列上的位置;下一個片段比對上的位置,如果不可用,此處為0;

9 TLEN,估計出的片段的長度,當mate 序列位於本序列上游時該值為負值。Template的長度,最左邊得為正,最右邊的為負,中間的不用定義正負,不分區段(single-segment)的比對上,或者不可用時,此處為0;

10 SEQ,read的序列;序列片段的序列信息,如果不存儲此類信息,此處為’*‘,注意CIGAR中M/I/S/=/X對應數字的和要等於序列長度;

11 QUAL,ASCII碼格式的序列質量;序列的質量信息,格式同FASTQ一樣。

12 可選的字段(field)

AS:i 匹配的得分

XS:i 第二好的匹配的得分

YS:i mate 序列匹配的得分

XN:i 在參考序列上模糊鹼基的個數

XM:i 錯配的個數

XO:i gap open的個數

XG:i gap 延伸的個數

NM:i 經過編輯的序列

YF:i 說明為什么這個序列被過濾的字符串

YT:Z

MD:Z 代表序列和參考序列錯配的字符串

 

示例:

HWI-ST170:265:5:44:14178:183344#0 145 1 62421 37 63M1I35M 18 56843949 0 CCTGTATACATAGTAATCAAAGTGTACCACTGGTCGGTGTTTGTGTTCAGGCCCCTGTTGGGTAATGTGCATGTGAAGACCTCAGGTGGTATAGTTTTG CEE?@F@BE@GGEGFBHHEDEEEDEEBEDHHBGHGGFHHDFHHHGGGGFFFEEEHFHFGFHHHHHFHHHFHHHHGHGHEHHHHHHHHHFHHHHHHHHHH RG:Z:DU23M01_Duroc XT:A:U NM:i:4 SM:i:37 AM:i:37 X0:i:1 X1:i:0 XM:i:3 XO:i:1 XG:i:1 MD:Z:20T22C1A52
HWI-ST170:264:5:61:3024:21492#0 113 1 62421 37 63M1I29M = 6885283 6822868 CCTGTATACATAGTAATCAAAGTGTACCACTGGTCGGTGTTTGTGTTCAGGCCCCTGTTGGGTAATGTGCATGTGAAGACCTCAGGTGGTATA @:;9AFGCHFHHHEGGGHDCADA?E@EEDAHFHHFFHHHFFHHHHHHHHHFHFHDHHHHHHHHGHGHHGHFHHHHHHHFHHHHHHHHHHHHHH RG:Z:DU23M01_Duroc XT:A:U NM:i:4 SM:i:37 AM:i:37 X0:i:1 X1:i:0 XM:i:3 XO:i:1 XG:i:1 MD:Z:20T22C1A46

 

FCC1L2FACXX:3:2106:15923:93264 99 1 1073 0 100M = 1461 488 TGTGAAGGCCCCCTGCTCTGACTGTGTTAGTGTCCATTTCTCCTTTTACGGTTGTAGCAGTTGCCTTCTACATTGCGGGGATCCTGTATTGGGTGCATGT ___eceeegfggggdgiiifghii[degfhfgfdffhhhfhfghiiighiiH^`Vbgfffihhiiiihhddbdgfgccca][^bbbbbccbca[X^Y_b_ MD:Z:98A1 PG:Z:MarkDuplicatesRG:Z:SRR949625 NM:i:1 AS:i:98 XS:i:98
FCC1L2FACXX:3:2111:13731:89147 163 1 1073 7 100M = 1438 465 TGTGAAGGCCCCGTGCTCTGACTGTGTTAGTGTCCATTTCTCCTTTTACGGTTGTAGCAGTTGCCTTCTACATTGCGGGGATCCTGTATTGGGTGCATAT bbaeeeeefggggefhiiiihiiicgghhigdehhhiiihiieffhiihihbggdghihfgffhihihf`geed_cecac]accb]_bcccbc^a_bcbb MD:Z:12C87 PG:Z:MarkDuplicatesRG:Z:SRR949625 NM:i:1 AS:i:95 XS:i:95

 

REF:

https://samtools.github.io/hts-specs/SAMv1.pdf

https://genome.sph.umich.edu/wiki/SAM

https://en.wikipedia.org/wiki/SAM_(file_format)

https://www.biostars.org/p/60765/


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM