@HWUSI-EAS100R:6:73:941:1973#0/1
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTT
+HWUSI-EAS100R:6:73:941:1973#0/1
!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC6
其中第一行以
@
开头,后面是
reads
的
ID
以及其他信息,例如上例中
HWUSI-EAS100R
代表
Illmina
设备名称,
6
代表
flowcell
中的第六个
lane
,
73
代表第六个
lane
中的第
73
个
tile
,
941:1973
代表该
read
在该
tile
中的
x
:
y
坐标信息;
#0
,若为多样本的混合作为输入样本,则该标志代表样本的编号,用来区分个样本中的
reads
;
/1
代表
paired end
中的前一个
read
。
补充说明:
Illmina
测序仪一个
flowcell
中包含
8
个
lane,
每个
lane
可以测一个样本或多样本的混合物,其中一个
lane
包含
2
列,每一列又包含
60
个
tile
,每一个
tile
又会种下不同的
cluster
,如下图所示。


第二行为read
的序列,不用多说!
紧接着下面两行代表该
read
的质量。
第三行以“
+
”开头,跟随者该
read
的名称(一般于
@
后面的内容相同),但有时可以省略,但“
+
”一定不能省。
第四行代表
reads
的质量。这一行可以详细说一下!
Illumina
测序仪是按照荧光信号来判断所测序的碱基是哪一种的,例如红黄蓝绿分别对应
ATCG
,那么一旦出现一个紫色的信号该怎么判断呢,因此对每个结果都有一个概率的问题。
起初
sanger
中心用
Phred quality score
来衡量该
read
中每个碱基的质量,既-10lgP ,其中P
代表该碱基被测序错误的概率,如果该碱基测序出错的概率为
0.001
,则
Q
应该为
30
,那么
30+33=63
,那么
63
对应的
ASCii
码为“?”,则在第四行中该碱基对应的质量代表值即为“?”,
ASCii
参考如下。


一般地,碱基质量从
0-40
,既
ASCii
码为从 “!”(
0+33
)到“
I
”
(40+33
)。以上是
sanger
中心采用记录
read
测序质量的方法,
Illumina
起初没有完全依照
sanger
中心的方法来定义测序质量,而是把P
换成了
p/(1-p).
其他完全按照
sanger的定义来做。但是他这形式在某些情况下是不准确的,可以看出当测序质量很高的情况下两种形式几乎没区别,但低质量的碱基则有区别了。
因此,
Illumina
有更换了好几种版本,从
1.3
版本升级到
1.5
版本再到1.8,最后完全采用
sanger
中的规则来做。因此,现在
Illumina
给出的测序质量值完全可以参考刚说的
sanger
方法。
测序流程:
library:样本DNA经过PCR扩增
lane:测序时的一条泳道,一个泳道可以只接受一个library的,也可以是多个library的,不同的library在两段是用不同的街头序列连起来作为标识的。当接受多个library的时候也是一起出的结果,当我们需要的测序深度不是特别深的时候就可以采用这种办法,根据不同的接头序列将这些数据分开成为一个个单独样本的fastq数据,这也是经常为什么在跑fastqc(质控)可以看到那些非正常的过表达序列。当然,一个library的DNA也可以用多个泳道测,这在需要很高的测序深度的时候才采用该策略。可以考虑在后续的比对生成的bam文件那里把他们合并起来成为一个bam文件。