fasta與fastq格式文件解讀


1、FASTA文件的格式

在生物信息學中,FASTA格式(又稱為Pearson格式)是一種基於文本的、用於表示核苷酸序列或氨基酸序列的格式。在這種格式中鹼基對或氨基酸用單個字母來表示,且允許在序列前添加序列名及注釋。

FASTA文件以序列表示和序列作為一個基本單元,各行記錄信息如下:

第一行是由大於號">"開頭的任意文字說明,用於序列標記,為了保證后續分析軟件能夠區分每條序列,單個序列的標識必須具有唯一性。;

從第二行開始為序列本身,只允許使用既定的核苷酸或氨基酸編碼符號。通常核苷酸符號大小寫均可,而氨基酸常用大寫字母。使用時應注意有些程序對大小寫有明確要求。文件每行的字母一般不應超過80個字符。

2、FASTQ文件格式

FASTQ是基於文本的、保存核酸序列和其測序質量信息的標准格式。其序列以及質量信息都是使用一個ASCII字符標示,最初由Sanger開發,目的是將FASTA序列與質量數據放到一起,目前已經成為高通量測序結果的事實標准。

FASTQ文件中以四行最為一個基本單元,並對應一條序列的測序信息,各行記錄信息如下:

第一行記錄序列標識以及相關的描述信息,以‘@’開頭,為了保證后續分析軟件能夠區分每條序列,單個序列的標識必須具有唯一性;

第二行為鹼基序列;

第三行以‘+’開頭,后面是序列標示符、描述信息,或者什么也不加;

第四行,是質量信息,長度和第二行的序列相對應,每一個序列都有一個質量評分,根據評分體系的不同,每個字符的含義表示的數字也不相同。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM