@HWUSI-EAS100R:6:73:941:1973#0/1
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTT
+HWUSI-EAS100R:6:73:941:1973#0/1
!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC6
其中第一行以
@
開頭,后面是
reads
的
ID
以及其他信息,例如上例中
HWUSI-EAS100R
代表
Illmina
設備名稱,
6
代表
flowcell
中的第六個
lane
,
73
代表第六個
lane
中的第
73
個
tile
,
941:1973
代表該
read
在該
tile
中的
x
:
y
坐標信息;
#0
,若為多樣本的混合作為輸入樣本,則該標志代表樣本的編號,用來區分個樣本中的
reads
;
/1
代表
paired end
中的前一個
read
。
補充說明:
Illmina
測序儀一個
flowcell
中包含
8
個
lane,
每個
lane
可以測一個樣本或多樣本的混合物,其中一個
lane
包含
2
列,每一列又包含
60
個
tile
,每一個
tile
又會種下不同的
cluster
,如下圖所示。


第二行為read
的序列,不用多說!
緊接着下面兩行代表該
read
的質量。
第三行以“
+
”開頭,跟隨者該
read
的名稱(一般於
@
后面的內容相同),但有時可以省略,但“
+
”一定不能省。
第四行代表
reads
的質量。這一行可以詳細說一下!
Illumina
測序儀是按照熒光信號來判斷所測序的鹼基是哪一種的,例如紅黃藍綠分別對應
ATCG
,那么一旦出現一個紫色的信號該怎么判斷呢,因此對每個結果都有一個概率的問題。
起初
sanger
中心用
Phred quality score
來衡量該
read
中每個鹼基的質量,既-10lgP ,其中P
代表該鹼基被測序錯誤的概率,如果該鹼基測序出錯的概率為
0.001
,則
Q
應該為
30
,那么
30+33=63
,那么
63
對應的
ASCii
碼為“?”,則在第四行中該鹼基對應的質量代表值即為“?”,
ASCii
參考如下。


一般地,鹼基質量從
0-40
,既
ASCii
碼為從 “!”(
0+33
)到“
I
”
(40+33
)。以上是
sanger
中心采用記錄
read
測序質量的方法,
Illumina
起初沒有完全依照
sanger
中心的方法來定義測序質量,而是把P
換成了
p/(1-p).
其他完全按照
sanger的定義來做。但是他這形式在某些情況下是不准確的,可以看出當測序質量很高的情況下兩種形式幾乎沒區別,但低質量的鹼基則有區別了。
因此,
Illumina
有更換了好幾種版本,從
1.3
版本升級到
1.5
版本再到1.8,最后完全采用
sanger
中的規則來做。因此,現在
Illumina
給出的測序質量值完全可以參考剛說的
sanger
方法。
測序流程:
library:樣本DNA經過PCR擴增
lane:測序時的一條泳道,一個泳道可以只接受一個library的,也可以是多個library的,不同的library在兩段是用不同的街頭序列連起來作為標識的。當接受多個library的時候也是一起出的結果,當我們需要的測序深度不是特別深的時候就可以采用這種辦法,根據不同的接頭序列將這些數據分開成為一個個單獨樣本的fastq數據,這也是經常為什么在跑fastqc(質控)可以看到那些非正常的過表達序列。當然,一個library的DNA也可以用多個泳道測,這在需要很高的測序深度的時候才采用該策略。可以考慮在后續的比對生成的bam文件那里把他們合並起來成為一個bam文件。