高通量測序數據下機后的原始fastq文件,包含4行,其中一行為質量值,另外一行則為對應序列,我們都了解高通量的數據處理首先要進行質量控制,這些過程包括去接頭、過濾低質量reads、去除低質量的3’和5’端,去除N較多的reads等,而針對高通量測序數據的質控軟件也有很多,在這里給大家介紹一款“老牌子”的質控工具fastx_toolkit,它是一個軟件包,包含了多個質控命令,下面我們就逐個講解其參數及使用:
1. fastq_quality_converter [-h] [-a] [-n] [-z] [-i INFILE] [-f OUTFILE]直觀觀察質量值
[-h] =打印幫助
[-a] = 輸出ASCII的質量得分(默認).
[-n] = 輸出質量值數據.
[-z] = GZIP壓縮輸出.
[-i INFILE] = 輸入fasta/fastq格式的文件.
[-o OUTFILE] = 輸出fasta/fastq文件.
2. fastq_masker [-h] [-v] [-q N] [-r C] [-z] [-i INFILE] [-o OUTFILE]屏蔽低質量鹼基
[-q N] =質量門限值,質量值低於這個門限值的將被mask掉,默認值為10
[-r C] = 用C替代低質量的鹼基,默認用N來替代
[-z] = 輸出用GZIP壓縮.
[-i INFILE] = 輸入FASTA文件
[-o OUTFILE] = 輸出文件
[-v] = 詳細-報告序列編號,如果使用了-o則報告會直接在STDOUT,如果沒有則輸入到STDERR
3. fastq_quality_filter [-h] [-v] [-q N] [-p N] [-z] [-i INFILE] [-o OUTFILE]過濾低質量序列
[-q N] = 最小的需要留下的質量值
[-p N] = 每個reads中最少有百分之多少的鹼基需要有-q的質量值
[-z] =壓縮輸出
[-v] =詳細-報告序列編號,如果使用了-o則報告會直接在STDOUT,如果沒有則輸入到STDERR
4. fastq_quality_trimmer [-h] [-v] [-t N] [-l N] [-z] [-i INFILE] [-o OUTFILE] 修剪reads的末端
[-t N] = 從5'端開始,低與N的質量的鹼基將被修剪掉
[-l N] = 修建之后的reads的長度允許的最短值
[-z] = 壓縮輸出
[-v] =詳細-報告序列編號,如果使用了-o則報告會直接在STDOUT,如果沒有則輸入到STDERR
5. fastq_to_fasta [-h] [-r] [-n] [-v] [-z] [-i INFILE] [-o OUTFILE]fastq轉換成fasta [-r] = 序列用序號重命名
[-n] = 保留有N的序列,默認不保留
[-z] = 壓縮輸出
6. fastx_trimmer [-h] [-f N] [-l N] [-t N] [-m MINLEN] [-z] [-v] [-i INFILE] [-o OUTFILE]從3'開始到5'哪些部分保留
[-f N] = 從第幾個鹼基開始保留,默認第一個
[-l N] = 后面從第幾個鹼基開始保留,默認全部鹼基都保留.
[-t N] =序列尾部修剪掉N個鹼基.
[-m MINLEN] = 修剪掉長度小於MINLEN的序列.
7. fastx_quality_stats [-h] [-N] [-i INFILE] [-o OUTFILE]fastq文件的質量值進行統計
[-i INFILE] = 輸入fastq文件
[-o OUTFILE] = 輸出的文本文件名字
[-N] =使用新的輸出格式,默認使用老格式
老格式輸出文件:下面一行代表輸出文件的一列
column=1到36
count = 這列有多少鹼基
min = 這列的鹼基質量最小值
max = 這列的鹼基質量最大值
sum = 這列的鹼基質量的總和
mean =這列的鹼基質量平均值
Q1 = 1/4鹼基質量值
med = 鹼基質量值的中位數
Q3 = 3/4鹼基質量值.
IQR = Q3-Q1
lW = 'Left-Whisker' value (for boxplotting).
rW = 'Right-Whisker' value (for boxplotting).
A_Count =本列A的數目
C_Count = 本列C的數目.
G_Count = 本列G的數目.
T_Count = 本列T的數目.
N_Count =本列N的數目.
max-count =鹼基數目的最大值
新的輸出格式:
循環數
最大數目
對每個循環的鹼基 (ALL/A/C/G/T/N):
count = 本列鹼基的數目
min = 本列鹼基質量的最小值
max = 本列鹼基質量的最大值.
sum = 本列鹼基質量的綜合.
mean = 本列鹼基質量的平均值
Q1 = 1/4鹼基質量值
med = 鹼基質量值的中位數
Q3 = 3/4鹼基質量值
IQR = Q3-Q1
lW = 'Left-Whisker' value (for boxplotting).
rW = 'Right-Whisker' value (for boxplotting).
8. fastq_quality_boxplot_graph.sh [-i INPUT.TXT] [-t TITLE] [-p] [-o OUTPUT]繪制鹼基質量分布盒式圖
[-p] =產生.PS文件,默認產生png圖像
[-i INPUT.TXT]=輸入文件為 fastx_quality_stats的輸出文件
[-o OUTPUT] =輸出文件的名字
[-t TITLE] =輸出圖像的標題
9. fastx_nucleotide_distribution_graph.sh [-i INPUT.TXT] [-t TITLE] [-p] [-o OUTPUT]繪制鹼基分布圖
[-p] =產生.PS文件,默認產生png圖像.
[-i INPUT.TXT] =輸入文件為 fastx_quality_stats的輸出文件
[-o OUTPUT] =輸出文件的名字.
[-t TITLE] =輸出圖像的標題
10. fastx_clipper [-h] [-a ADAPTER] [-D] [-l N] [-n] [-d N] [-c] [-C] [-o] [-v] [-z] [-i INFILE] [-o OUTFILE] 去掉接頭序列
[-a ADAPTER] =接頭序列(默認為CCTTAAGG)
[-l N] = 忽略那些鹼基數目少於N的reads,默認為5
[-d N] = 保留接頭序列后的N個鹼基默認 -d 0
[-c] = 放棄那些沒有接頭的序列.
[-C] = 只保留沒有接頭的序列.
[-k] = 報告只有接頭的序列.
[-n] = 保留有N多序列,默認不保留
[-v] =詳細-報告序列編號
[-z] =壓縮輸出.
[-D] = 輸出調試結果.
[-M N] =要求最小能匹配到接頭的長度N,如果和接頭匹配的長度小於N不修剪
[-i INFILE] = 輸入文件
[-o OUTFILE] = 輸出文件