1,SAM文件格式介紹
SAM(The Sequence Alignment / Map format)格式,即序列比對文件的格式,詳細介紹文檔:http://samtools.github.io/hts-specs/SAMv1.pdf
SAM文件由兩部分組成,頭部區和主體區,都以tab分列。
頭部區:以’@'開始,體現了比對的一些總體信息。比如比對的SAM格式版本,比對的參考序列,比對使用的軟件等。
主體區:比對結果,每一個比對結果是一行,有11個主列和一個可選列。
2,頭部區簡要介紹
@HD VN:1.0 SO:unsorted (排序類型)
頭部區第一行:VN是格式版本;SO表示比對排序的類型,有unknown(default),unsorted,queryname和coordinate幾種。samtools軟件在進行行排序后不能自動更新bam文件的SO值,而picard卻可以。
@SQ SN:contig1 LN:9401 (序列ID及長度)
參考序列名,這些參考序列決定了比對結果sort的順序,SN是參考序列名;LN是參考序列長度;每個參考序列為一行。
例如:@SQ SN:NC_000067.6 LN:195471971
@RG ID:sample01 (樣品基本信息)
Read Group。1個sample的測序結果為1個Read Group;該sample可以有多個library的測序結果,可以利用bwa mem -R 加上去這些信息。
例如:@RG ID:ZX1_ID SM:ZX1 LB:PE400 PU:Illumina PL:Miseq
ID:樣品的ID號 SM:樣品名 LB:文庫名 PU:測序以 PL:測序平台
這些信息可以在形成sam文件時加入,ID是必須要有的后面是否添加看分析要求
@PG ID:bowtie2 PN:bowtie2 VN:2.0.0-beta7 (比對所使用的軟件及版本)
例如:@PG ID:bwa PN:bwa VN:0.7.12-r1039 CL:bwa sampe -a 400 -f ZX1.sam -r @RG ID:ZX1_ID SM:ZX1 LB:PE400 PU:Illumina PL:Miseq …/0_Reference/Reference_Sequence.fa ZX_HQ_clean_R1.fq.sai ZX_HQ_clean_R2.fq.sai …/2_HQData/ZX_HQ_clean_R1.fq …/2_HQData/ZX_HQ_clean_R2.fq
這里的ID是bwa,PN是bwa,VN是0.7.12-r1039版本。CL可以認為是運行程序@RG是上面RG表示的內容,后面是程序內容,這里的@GR內容是可以自己在運行程序是加入的
3,主體部分介紹
主體部分有11個主列和1個可選列
QNAME 比對的序列名稱 例如:M04650:84:000000000-B837R:1:1101:22699:1759(一條測序reads的名稱)
FLAG Bwise FLAG(表明比對類型:paring,strand,mate strand等) 例如:99
RENAME 比對上的參考序列名 例如:NC_000075.6
POS 1-Based的比對上的最左邊的定位 例如:124057649
MAPQ 比對質量 例如:60
CIGAR Extended CIGAR string(操作符:MIDNSHP)比對結果信息;匹配鹼基數,可變剪接等 例如:87M
MRNM 相匹配的另外一條序列,比對上的參考序列名 例如:=
MPOS 1-Based leftmost Mate Position (相比於MRNM列來講意思和POS差不多) 例如:124057667
ISIZE 插入片段長度 例如:200
SEQ 和參考序列在同一個鏈上比對的序列(若比對結果在負義鏈上,則序列是其反向重復序列,反向互補序列) 例如:ATTACTTGGCTGCT
QUAL 比對序列的質量(ASCII-33=Phred base quality)reads鹼基質量值 例如:-8CCCGFCCCF7@E-
可選的列 以TAG:TYPE:VALUE的形式提供額外的信息
4,對於每一列內容的詳細注解
(如果某一列為“0”或“*”表示這一列沒有信息)
第一列:QNAME
進行reads比對時通常表示reads的名字,如果這條reads比對到多條序列或比對到這條序列的多個位置,相同名字會出現多次。如果是pair-end reads,相同名字會出現2次,分別表示來自於R1文件的reads和R2文件的reads,如果其matepair reads也比對2個位置,也會出現2次,則相同名字共出現4次,如果一條reads也比對2個位置,則其matepair比對1個位置,則共出現3次,如果其matepair reads沒有比對上序列也會出現1次(第三列顯示“*”),所以pair-end測序,R1文件和R2文件同時mapping,相同reads的id最少出現2次。
第二列:FLAG
數值結果如下:
1(1)該read是成對的paired reads中的一個
2(10)paired reads中每個都正確比對到參考序列上
4(100)該read沒比對到參考序列上
8(1000)與該read成對的matepair read沒有比對到參考序列上
16(10000)該read其反向互補序列能夠比對到參考序列
32(100000)與該read成對的matepair read其反向互補序列能夠比對到參考序列
64(1000000)在paired reads中,該read是與參考序列比對的第一條
128(10000000)在paired reads中,該read是與參考序列比對的第二條
256(100000000)該read是次優的比對結果
512(1000000000)該read沒有通過質量控制
1024(10000000000)由於PCR或測序錯誤產生的重復reads
2048(100000000000)補充匹配的read
具體的flag值的解釋,可以參考samtools軟件提供的結果
samtools(Version: 1.3.1)
其中的samtools flags用法可提供flag值的查找結果
About: Convert between textual and numeric flag representation
Usage: samtools flags INT|STR[,...]
例如:
samtools flags 10
0xa 10 PROPER_PAIR,MUNMAP(10=2+8)
samtools flags 12
0xc 12 UNMAP,MUNMAP(12=4+8)
具體的flag值的解釋,也可參考如下網站:https://broadinstitute.github.io/picard/explain-flags.html
或者在必應當中搜索flag sam點擊Explain SAM Flags-GitHub Pages進入該網頁,也可以輸入組合flag數值會出現所存在的意思
第三列:RNAME
表示read比對的那條序列的序列名稱(名稱與頭部的@SQ相對應),如果這列是“*”,可以認為這條read沒有比對上的序列,則這一行的第四,五,八,九 列是“0”,第六,七列與該列是相同的表示方法
第四列:POS
表示read比對到RNAME這條序列的最左邊的位置,如果該read能夠完全比對到這條序列(CIGAR string為M)則這個位置是read的第一個鹼基比對的位置,如果該read的反向互補序列比對到這條序列,則這個位置是read的反向互補序列的第一個鹼基比對的位置,所以無論該read是正向比對到該序列,或是其反向互補序列比對到該序列,比對結果均是最左端的比對位置
第五列:MAPQ
表示為mapping的質量值,mapping Quality, It equals -10log10Pr{mapping position is wrong}, rounded to the nearest integer, A value 255 indicates that the mapping quality is not available. 該值的計算方法是mapping的錯誤率的-10log10值,之后四舍五入得到的整數,如果值為255表示mapping值是不可用的,如果是unmapped read則MAPQ為0,一般在使用bwa mem或bwa aln(bwa 0.7.12-r1039版本)生成的sam文件,第五列為60表示mapping率最高,一般結果是這一列的數值是從0到60,且0和60這兩個數字出現次數最多
第六列:CIGAR
CIGAR string,可以理解為reads mapping到第三列序列的mapping狀態,
對於mapping狀態可分為以下幾類:
M:alignment match (can be a sequence match or mismatch)
表示read可mapping到第三列的序列上,則read的鹼基序列與第三列的序列鹼基相同,表示正常的mapping結果,M表示完全匹配,但是無論reads與序列的正確匹配或是錯誤匹配該位置都顯示為M
I:insertion to the reference
表示read的鹼基序列相對於第三列的RNAME序列,有鹼基的插入
D:deletion from the reference
表示read的鹼基序列相對於第三列的RNAME序列,有鹼基的刪除
N:skipped region from the reference
表示可變剪接位置
P:padding (silent deletion from padded reference)
S:soft clipping (clipped sequences present in SEQ)
H:hard clipping (clipped sequences NOT present in SEQ)
clipped均表示一條read的序列被分開,之所以被分開,是因為read的一部分序列能匹配到第三列的RNAME序列上,而被分開的那部分不能匹配到RNAME序列上。
"="表示正確匹配到序列上
"X"表示錯誤匹配到序列上
而H只出現在一條read的前端或末端,但不會出現在中間,S一般會和H成對出現,當有H出現時,一定會有一個與之對應的S出現
例如:
162M89S
162H89M
149M102S
149H102M
40S211M
20M1D20M211H
S可以單獨出現,而H必須有與之對應的S出現時才可能出現,不可在相同第一列的情況下單獨出現
N:如果是mRNA-to-genome,N出現的位置代表內含子,其它比對形式出現N時則沒有具體解釋
M/I/S/=/X:這些數值的加和等於第10列SEQ的長度
第七列:MRNM
這條reads第二次比對的位置,在利用bwa mem產生sam文件時,如果該列是“”而
第3列RNAME不是“”則表示該reads比對到第3列顯示序列名的序列上,而沒有比對到其他位置,在利用bwa aln及bwa sampe比對生成的sam文件,如果和上述情況相同,則第7列為“=”,上述情況均表示該reads只比對到這一個位置
如果第3列RNAME和第7列MRNM都為“*”,則說明這條reads沒有匹配上的序列,如果這條reads匹配兩個序列,則第一個序列的名稱出現在第3列,而第二個序列的名稱出現在第7列
第八列:MPOS
該列表示與該reads對應的mate pair reads的比對位置,如果這對pair-end reads比對到同一條reference序列上,在sam文件中reads的id出現2次,Read1比對的第4列等於Read2比對的第8列。同樣Read1比對的第8列等於Read2比對的第4列。例如:
第1列(Read id)····第4列(Read1比對位置)····第8列(mate-pair reads比對位置)
22699:1759····124057649····124057667
22699:1759····124057667····124057649
相同的reads id一個來自Read1文件,一個來自Read2文件,第4列和第8列是對應的
第九列:ISIZE
TLEN:signed observed Template LENgth (可以理解為文庫插入片段長度)
如果R1端的read和R2端的read能夠mapping到同一條Reference序列上(即第三列RNAME相同),則該列的值表示第8列減去第4列加上第6列的值,R1端和R2端相同id的reads其第九列值相同,但該值為一正一負,R1文件的reads和R2文件的reads,相同id的reads要相對來看。在進行該第列值的計算時,如果取第6列的數值,一定要取出現M的值,S或H的值不能取。
the unisgned observed template length equals the number of base from the leftmost mapped base to the rightmost mappedbase. Theleftmost segment has a plus sign and the rightmost has a minus sign
處理bam文件的主要生信軟件有
bwa,bowtie2,samtools,bedtools等
可以看mapping等多方面結果和統計,bedtools工具中genomeCoverageBed的功能是:Compute the coverage of a feature file among a genome