1、FASTA文件的格式
在生物信息學中,FASTA格式(又稱為Pearson格式)是一種基於文本的、用於表示核苷酸序列或氨基酸序列的格式。在這種格式中鹼基對或氨基酸用單個字母來表示,且允許在序列前添加序列名及注釋。
FASTA文件以序列表示和序列作為一個基本單元,各行記錄信息如下:
第一行是由大於號">"開頭的任意文字說明,用於序列標記,為了保證后續分析軟件能夠區分每條序列,單個序列的標識必須具有唯一性。;
從第二行開始為序列本身,只允許使用既定的核苷酸或氨基酸編碼符號。通常核苷酸符號大小寫均可,而氨基酸常用大寫字母。使用時應注意有些程序對大小寫有明確要求。文件每行的字母一般不應超過80個字符。
2、FASTQ文件格式
FASTQ是基於文本的、保存核酸序列和其測序質量信息的標准格式。其序列以及質量信息都是使用一個ASCII字符標示,最初由Sanger開發,目的是將FASTA序列與質量數據放到一起,目前已經成為高通量測序結果的事實標准。
FASTQ文件中以四行最為一個基本單元,並對應一條序列的測序信息,各行記錄信息如下:
第一行記錄序列標識以及相關的描述信息,以‘@’開頭,為了保證后續分析軟件能夠區分每條序列,單個序列的標識必須具有唯一性;
第二行為鹼基序列;
第三行以‘+’開頭,后面是序列標示符、描述信息,或者什么也不加;
第四行,是質量信息,長度和第二行的序列相對應,每一個序列都有一個質量評分,根據評分體系的不同,每個字符的含義表示的數字也不相同。