二代测序的fastq文件格式介绍


@HWUSI-EAS100R:6:73:941:1973#0/1
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTT
+HWUSI-EAS100R:6:73:941:1973#0/1
!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC6
其中第一行以 @ 开头,后面是 reads ID 以及其他信息,例如上例中  HWUSI-EAS100R 代表 Illmina 设备名称, 6 代表 flowcell 中的第六个 lane 73 代表第六个 lane 中的第 73 tile 941:1973 代表该 read 在该 tile 中的 x y 坐标信息; #0 ,若为多样本的混合作为输入样本,则该标志代表样本的编号,用来区分个样本中的 reads /1 代表 paired end 中的前一个 read
补充说明: Illmina 测序仪一个 flowcell 中包含 8 lane, 每个 lane 可以测一个样本或多样本的混合物,其中一个 lane 包含 2 列,每一列又包含 60 tile ,每一个 tile 又会种下不同的 cluster ,如下图所示。
 

 

 
第二行为read 的序列,不用多说!
紧接着下面两行代表该 read 的质量。
第三行以“ + ”开头,跟随者该 read 的名称(一般于 @ 后面的内容相同),但有时可以省略,但“ + ”一定不能省。
第四行代表 reads 的质量。这一行可以详细说一下! Illumina 测序仪是按照荧光信号来判断所测序的碱基是哪一种的,例如红黄蓝绿分别对应 ATCG ,那么一旦出现一个紫色的信号该怎么判断呢,因此对每个结果都有一个概率的问题。 起初 sanger 中心用 Phred quality score 来衡量该 read 中每个碱基的质量,既-10lgP ,其中P 代表该碱基被测序错误的概率,如果该碱基测序出错的概率为 0.001 ,则 Q 应该为 30 ,那么 30+33=63 ,那么 63 对应的 ASCii 码为“?”,则在第四行中该碱基对应的质量代表值即为“?”, ASCii 参考如下。
 

 

 
一般地,碱基质量从
0-40 ,既 ASCii 码为从 “!”( 0+33 )到“ I (40+33 )。以上是 sanger 中心采用记录 read 测序质量的方法, Illumina 起初没有完全依照 sanger 中心的方法来定义测序质量,而是把P 换成了 p/(1-p).  其他完全按照 sanger的定义来做。但是他这形式在某些情况下是不准确的,可以看出当测序质量很高的情况下两种形式几乎没区别,但低质量的碱基则有区别了。
因此, Illumina 有更换了好几种版本,从 1.3 版本升级到 1.5 版本再到1.8,最后完全采用 sanger 中的规则来做。因此,现在 Illumina 给出的测序质量值完全可以参考刚说的 sanger 方法。
 
 
 
测序流程:
library:样本DNA经过PCR扩增
lane:测序时的一条泳道,一个泳道可以只接受一个library的,也可以是多个library的,不同的library在两段是用不同的街头序列连起来作为标识的。当接受多个library的时候也是一起出的结果,当我们需要的测序深度不是特别深的时候就可以采用这种办法,根据不同的接头序列将这些数据分开成为一个个单独样本的fastq数据,这也是经常为什么在跑fastqc(质控)可以看到那些非正常的过表达序列。当然,一个library的DNA也可以用多个泳道测,这在需要很高的测序深度的时候才采用该策略。可以考虑在后续的比对生成的bam文件那里把他们合并起来成为一个bam文件。
 
 
 


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM