文件格式——fastq格式


fastQ格式

FASTQ是一種存儲了生物序列(通常是核酸序列)以及相應的質量評價的文本格式.

他們都是以ASCII編碼的。現在幾乎是高通量測序的標准格式。NCBI Short Read Archive也是這格式,多了一些描述性詞匯而已。

 

基本格式

包含四行,第一行'@'開始,后面跟着序列的描述信息,這點跟FASTA格式是一樣的

第二行是序列

第三行由'+'開始,后面也可以跟着序列的描述信息

第四行是第二行序列的質量評價(quality values,注:應該是測序的質量評價),字符數跟第二行的序列是相等且對應的。

舉例子

 

第一行以@開頭,后面是readsID以及其他信息,例如上例中 HWUSI-EAS100R代表Illmina設備名稱,6代表flowcell中的第六個lane73代表第六個lane中的第73tile941:1973代表該read在該tile中的xy坐標信息;#0,若為多樣本的混合作為輸入樣本,則該標志代表樣本的編號,用來區分個樣本中的reads/1代表paired end中的前一個read

第二行為read的序列

第三行以+”開頭,跟隨者該read的名稱(一般於@后面的內容相同),但有時可以省略,但“+”一定不能省

第四行代表reads的質量。這一行可以詳細說一下!

Q值得計算

Illumina測序儀是按照熒光信號來判斷所測序的鹼基是哪一種的,例如紅黃藍綠分別對應ATCG,那么一旦出現一個紫色的信號該怎么判斷呢,因此對每個結果都有一個概率的問題。起初sanger中心用Phred quality score來衡量該read中每個鹼基的質量,既-10lgP ,其中P代表該鹼基被測序錯誤的概率,如果該鹼基測序出錯的概率為0.001,則Q應該為30,那么30+33=63,那么63對應的ASCii碼為,則在第四行中該鹼基對應的質量代表值即為ASCii參考如圖2

P=0.001時,Q=30;P=0.01時,Q=20;P=0.1時,Q=10。

 

2

格式轉換

FASTQ格式Fasta格式GenBank等格式可以相互轉換。格式轉換器如下:

Biopython version 1.51 onwards (interconverts Sanger, Solexa and Illumina 1.3+)

EMBOSS version 6.1.0 patch 1 onwards (interconverts Sanger, Solexa and Illumina 1.3+)

BioPerl version 1.6.1 onwards (interconverts Sanger, Solexa and Illumina 1.3+)

BioRuby version 1.4.0 onwards (interconverts Sanger, Solexa and Illumina 1.3+)

BioJava version 1.7.1 to 1.8.x (interconverts Sanger, Solexa and Illumina 1.3+)

MAQ can convert from Solexa to Sanger (use this patch to support Illumina 1.3+ files).

fastx_toolkit The included fastq_quality_converter program can convert Illumina to Sanger

Illumina中應用

   Illmina有多種測序儀,從早期的GAHiseq2000Hiseq2500以及Hiseq X, Hiseq2000一個flowcell中包含8lane,每個lane可以測一個文庫或多樣本的混合文庫,多樣本混合文庫如果需要后期區分則每個文庫需要一個獨特的標簽,即Index。其中一個lane包含3(3Swath),每一列又包含8tile,每一個tile又會種下不同的cluster,如圖1所示為Hiseq2500FlowCell的一個表面。3

 

3


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM