bam/sam格式說明

本文轉載自查看原文 2016-04-08 09:24 6291 [25] 生物信息學

在SAM輸出的結果中每一行都包括十二項通過Tab分隔（\t），從左到右分別是：

1 QNAME,序列的名字（Read的名字）

2 FLAG, 概括出一個合適的標記，各個數字分別代表

1 序列是一對序列中的一個

2 比對結果是一個pair-end比對的末端

4 沒有找到位點

8 這個序列是pair中的一個但是沒有找到位點

16 在這個比對上的位點，序列與參考序列反向互補

32 這個序列在pair-end中的的mate序列與參考序列反響互補

64 序列是 mate 1

128 序列是 mate 2

假如說標記為以上列舉出的數目，就可以直接推斷出匹配的情況。假如說標記不是以上列舉出的數字，比如說83=（64+16+2+1），就是這幾種情況值和。

3 RNAME,參考序列的名字（染色體）

4 POS,在參考序列上的位置（染色體上的位置）

5 MAPQ, mapping qulity 越高則位點越獨特

bowtie2有時並不能完全確定一個短的序列來自參考序列的哪個位置，特別是對那些比較簡單的序列。但是bowtie2會給出一個值來顯示這個段序列來自某個位點的概率值，這個值就是mapping qulity。Mapping qulity的計算方法是：Q=-10log10p，Q是一個非負值，p是這個序列不來自這個位點的估計值。

假如說一條序列在某個參考序列上找到了兩個位點，但是其中一個位點的Q明顯大於另一個位點的Q值，這條序列來源於前一個位點的可能性就比較大。Q值的差距越大，這獨特性越高。

6 CIGAR,代表比對結果的CIGAR字符串，如37M1D2M1I，這段字符的意思是37個匹配，1個參考序列上的刪除，2個匹配，1個參考序列上的插入。M代表的是alignment match(可以是錯配)

    #standard cigar:
   #M match
   #I insertion
   #D deletion

   #extended cigar
   #N gap
   #S substitution
   #H hard clipping
   #P padding
   #= sequence match
   #X sequence mismatch

7 RNEXT, mate 序列所在參考序列的名稱; 下一個片段比對上的參考序列的編號，沒有另外的片段，這里是’*‘，同一個片段，用’=‘；

8 PNEXT, mate 序列在參考序列上的位置;下一個片段比對上的位置，如果不可用，此處為0；

9 TLEN，估計出的片段的長度，當mate 序列位於本序列上游時該值為負值。Template的長度，最左邊得為正，最右邊的為負，中間的不用定義正負，不分區段（single-segment)的比對上，或者不可用時，此處為0；

10 SEQ，read的序列;序列片段的序列信息，如果不存儲此類信息，此處為’*‘，注意CIGAR中M/I/S/=/X對應數字的和要等於序列長度；

11 QUAL，ASCII碼格式的序列質量;序列的質量信息，格式同FASTQ一樣。

12 可選的字段（field）

AS:i 匹配的得分

XS:i 第二好的匹配的得分

YS:i mate 序列匹配的得分

XN:i 在參考序列上模糊鹼基的個數

XM:i 錯配的個數

XO:i gap open的個數

XG:i gap 延伸的個數

NM:i 經過編輯的序列

YF:i 說明為什么這個序列被過濾的字符串

YT:Z

MD:Z 代表序列和參考序列錯配的字符串

示例：

HWI-ST170:265:5:44:14178:183344#0 145 1 62421 37 63M1I35M 18 56843949 0 CCTGTATACATAGTAATCAAAGTGTACCACTGGTCGGTGTTTGTGTTCAGGCCCCTGTTGGGTAATGTGCATGTGAAGACCTCAGGTGGTATAGTTTTG CEE?@F@BE@GGEGFBHHEDEEEDEEBEDHHBGHGGFHHDFHHHGGGGFFFEEEHFHFGFHHHHHFHHHFHHHHGHGHEHHHHHHHHHFHHHHHHHHHH RG:Z:DU23M01_Duroc XT:A:U NM:i:4 SM:i:37 AM:i:37 X0:i:1 X1:i:0 XM:i:3 XO:i:1 XG:i:1 MD:Z:20T22C1A52
HWI-ST170:264:5:61:3024:21492#0 113 1 62421 37 63M1I29M = 6885283 6822868 CCTGTATACATAGTAATCAAAGTGTACCACTGGTCGGTGTTTGTGTTCAGGCCCCTGTTGGGTAATGTGCATGTGAAGACCTCAGGTGGTATA @:;9AFGCHFHHHEGGGHDCADA?E@EEDAHFHHFFHHHFFHHHHHHHHHFHFHDHHHHHHHHGHGHHGHFHHHHHHHFHHHHHHHHHHHHHH RG:Z:DU23M01_Duroc XT:A:U NM:i:4 SM:i:37 AM:i:37 X0:i:1 X1:i:0 XM:i:3 XO:i:1 XG:i:1 MD:Z:20T22C1A46

FCC1L2FACXX:3:2106:15923:93264 99 1 1073 0 100M = 1461 488 TGTGAAGGCCCCCTGCTCTGACTGTGTTAGTGTCCATTTCTCCTTTTACGGTTGTAGCAGTTGCCTTCTACATTGCGGGGATCCTGTATTGGGTGCATGT ___eceeegfggggdgiiifghii[degfhfgfdffhhhfhfghiiighiiH^`Vbgfffihhiiiihhddbdgfgccca][^bbbbbccbca[X^Y_b_ MD:Z:98A1 PG:Z:MarkDuplicatesRG:Z:SRR949625 NM:i:1 AS:i:98 XS:i:98
FCC1L2FACXX:3:2111:13731:89147 163 1 1073 7 100M = 1438 465 TGTGAAGGCCCCGTGCTCTGACTGTGTTAGTGTCCATTTCTCCTTTTACGGTTGTAGCAGTTGCCTTCTACATTGCGGGGATCCTGTATTGGGTGCATAT bbaeeeeefggggefhiiiihiiicgghhigdehhhiiihiieffhiihihbggdghihfgffhihihf`geed_cecac]accb]_bcccbc^a_bcbb MD:Z:12C87 PG:Z:MarkDuplicatesRG:Z:SRR949625 NM:i:1 AS:i:95 XS:i:95

REF:

https://samtools.github.io/hts-specs/SAMv1.pdf

https://genome.sph.umich.edu/wiki/SAM

https://en.wikipedia.org/wiki/SAM_(file_format)

https://www.biostars.org/p/60765/

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 bam/sam 文件格式詳解文件格式——Sam&bam文件 bam文件格式說明 SAM/BAM文件處理 sam格式詳細說明 [samtools] sam格式與bam格式互換，提取未匹配reads，轉為fastq pysam - 多種格式基因組數據（sam/bam/vcf/bcf/cram/…）讀寫與處理模塊（python） SAMTOOLS使用 SAM BAM文件處理 SAM格式 bwa比對軟件的使用以及其結果文件（sam）格式說明