SAM是一種序列比對格式標准, 由sanger制定,是以TAB為分割符的文本格式。主要應用於測序序列mapping到基因組上的結果表示,當然也可以表示任意的多重比對結果。
不同的軟件,不同的時期,不同的研究方向,都會創建一種或者多種格式標准,當然根據當時的需要,創建符合需求的標准,也是最容易的事情,而反過來想要真正的理解標准,也必須理解為什么要創建這樣的標准,解決什么樣的需要。我前面的有篇文章已經對於現有的多重比對的格式進行總結,但其更多的站在比較基因組學的角度。當我們去了解sam標准格式是什么的時候,就要思考既然以及有了這么多得標准,為什么還要定義SAM標准,當然拿所有的格式進行比較也並非易事,但是簡單的對比,就可以了解其中一二,比如aln格式,是比對視圖化的展示,存儲的信息不夠結構化,無法方便的作為另外程序的輸入;表示信息的有限性,如果100個多重比對序列放到一個文件中,查看維護就會非常困難;還有些格式標准挺強大,但是太繁瑣,同時不夠靈活。那么反過來就是SAM格式的優點,那么SAM如何做到這一點的呢?
SAM要處理好的問題:
- 非常多序列(read),mapping到多個參考基因組(reference)上;
- 同一條序列,分多段(segment)比對到參考基因組上;
- 無限量的,結構化信息表示,包括錯配、刪除、插入等比對信息;
SAM分為兩部分,注釋信息(header section)和比對結果部分(alignment section),注釋信息可有可無,都是以@開頭,用不同的tag表示不同的信息,主要有@HD,說明符合標准的版本、對比序列的排列順序;@SQ,參考序列說明;@RG,比對上的序列(read)說明;@PG,使用的程序說明;@CO,任意的說明信息。
比對結果部分(alignment section),每一行表示一個片段(segment)的比對信息,包括11個必須的字段(mandatory fields)和一個可選的字段,字段之間用tag分割。必須的字段有11個,順序固定,不可用時,根據字段定義,可以為’0‘或者’*‘,這是11個字段包括:
- QNAME,比對片段的(template)的編號;
- FLAG,位標識,template mapping情況的數字表示,每一個數字代表一種比對情況,這里的值是符合情況的數字相加總和;
- RNAME,參考序列的編號,如果注釋中對SQ-SN進行了定義,這里必須和其保持一致,另外對於沒有mapping上的序列,這里是’*‘;
- POS,比對上的位置,注意是從1開始計數,沒有比對上,此處為0;
- MAPQ,mappint的質量;
- CIGAR,簡要比對信息表達式(Compact Idiosyncratic Gapped Alignment Report),其以參考序列為基礎,使用數字加字母表示比對結果,比如3S6M1P1I4M,前三個鹼基被剪切去除了,然后6個比對上了,然后打開了一個缺口,有一個鹼基插入,最后是4個比對上了,是按照順序的;
- RNEXT,下一個片段比對上的參考序列的編號,沒有另外的片段,這里是’*‘,同一個片段,用’=‘;
- PNEXT,下一個片段比對上的位置,如果不可用,此處為0;
- TLEN,Template的長度,最左邊得為正,最右邊的為負,中間的不用定義正負,不分區段(single-segment)的比對上,或者不可用時,此處為0;
- SEQ,序列片段的序列信息,如果不存儲此類信息,此處為’*‘,注意CIGAR中M/I/S/=/X對應數字的和要等於序列長度;
- QUAL,序列的質量信息,格式同FASTQ一樣。
可選字段(optional fields),格式如:TAG:TYPE:VALUE,其中TAG有兩個大寫字母組成,每個TAG代表一類信息,每一行一個TAG只能出現一次,TYPE表示TAG對應值的類型,可以是字符串、整數、字節、數組等。
要注意的幾個概念,以及與之對應的模型:
- reference
- read
- segment
- template(參考序列和比對上的序列共同組成的序列為template)
- alignment
- seq
更多的介紹請讀讀
SAM的定義: http://samtools.sourceforge.net/SAM1.pdf
發表的文獻: http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2723002/
CIGAR的概念 http://asia.ensembl.org/common/Help/Glossary?db=core
一篇博客對於sam的解釋 http://davetang.org/wiki/tiki-index.php?page=SAM
perl模塊 http://search.cpan.org/~lds/Bio-SamTools/lib/Bio/DB/Sam.pm
文章來源:http://boyun.sh.cn/bio/?p=1890