二代測序的fastq文件格式介紹


@HWUSI-EAS100R:6:73:941:1973#0/1
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTT
+HWUSI-EAS100R:6:73:941:1973#0/1
!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC6
其中第一行以 @ 開頭,后面是 reads ID 以及其他信息,例如上例中  HWUSI-EAS100R 代表 Illmina 設備名稱, 6 代表 flowcell 中的第六個 lane 73 代表第六個 lane 中的第 73 tile 941:1973 代表該 read 在該 tile 中的 x y 坐標信息; #0 ,若為多樣本的混合作為輸入樣本,則該標志代表樣本的編號,用來區分個樣本中的 reads /1 代表 paired end 中的前一個 read
補充說明: Illmina 測序儀一個 flowcell 中包含 8 lane, 每個 lane 可以測一個樣本或多樣本的混合物,其中一個 lane 包含 2 列,每一列又包含 60 tile ,每一個 tile 又會種下不同的 cluster ,如下圖所示。
 

 

 
第二行為read 的序列,不用多說!
緊接着下面兩行代表該 read 的質量。
第三行以“ + ”開頭,跟隨者該 read 的名稱(一般於 @ 后面的內容相同),但有時可以省略,但“ + ”一定不能省。
第四行代表 reads 的質量。這一行可以詳細說一下! Illumina 測序儀是按照熒光信號來判斷所測序的鹼基是哪一種的,例如紅黃藍綠分別對應 ATCG ,那么一旦出現一個紫色的信號該怎么判斷呢,因此對每個結果都有一個概率的問題。 起初 sanger 中心用 Phred quality score 來衡量該 read 中每個鹼基的質量,既-10lgP ,其中P 代表該鹼基被測序錯誤的概率,如果該鹼基測序出錯的概率為 0.001 ,則 Q 應該為 30 ,那么 30+33=63 ,那么 63 對應的 ASCii 碼為“?”,則在第四行中該鹼基對應的質量代表值即為“?”, ASCii 參考如下。
 

 

 
一般地,鹼基質量從
0-40 ,既 ASCii 碼為從 “!”( 0+33 )到“ I (40+33 )。以上是 sanger 中心采用記錄 read 測序質量的方法, Illumina 起初沒有完全依照 sanger 中心的方法來定義測序質量,而是把P 換成了 p/(1-p).  其他完全按照 sanger的定義來做。但是他這形式在某些情況下是不准確的,可以看出當測序質量很高的情況下兩種形式幾乎沒區別,但低質量的鹼基則有區別了。
因此, Illumina 有更換了好幾種版本,從 1.3 版本升級到 1.5 版本再到1.8,最后完全采用 sanger 中的規則來做。因此,現在 Illumina 給出的測序質量值完全可以參考剛說的 sanger 方法。
 
 
 
測序流程:
library:樣本DNA經過PCR擴增
lane:測序時的一條泳道,一個泳道可以只接受一個library的,也可以是多個library的,不同的library在兩段是用不同的街頭序列連起來作為標識的。當接受多個library的時候也是一起出的結果,當我們需要的測序深度不是特別深的時候就可以采用這種辦法,根據不同的接頭序列將這些數據分開成為一個個單獨樣本的fastq數據,這也是經常為什么在跑fastqc(質控)可以看到那些非正常的過表達序列。當然,一個library的DNA也可以用多個泳道測,這在需要很高的測序深度的時候才采用該策略。可以考慮在后續的比對生成的bam文件那里把他們合並起來成為一個bam文件。
 
 
 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM