fastx_toolkit軟件使用說明


高通量測序數據下機后的原始fastq文件,包含4行,其中一行為質量值,另外一行則為對應序列,我們都了解高通量的數據處理首先要進行質量控制,這些過程包括去接頭、過濾低質量reads、去除低質量的3’和5’端,去除N較多的reads等,而針對高通量測序數據的質控軟件也有很多,在這里給大家介紹一款“老牌子”的質控工具fastx_toolkit,它是一個軟件包,包含了多個質控命令,下面我們就逐個講解其參數及使用:

1. fastq_quality_converter [-h] [-a] [-n] [-z] [-i INFILE] [-f OUTFILE]直觀觀察質量值
  [-h]         =打印幫助
  [-a]         = 輸出ASCII的質量得分(默認).
  [-n]         = 輸出質量值數據.
  [-z]         = GZIP壓縮輸出.
  [-i INFILE]  = 輸入fasta/fastq格式的文件.
  [-o OUTFILE] = 輸出fasta/fastq文件.

2.  fastq_masker [-h] [-v] [-q N] [-r C] [-z] [-i INFILE] [-o OUTFILE]屏蔽低質量鹼基
  [-q N]     =質量門限值,質量值低於這個門限值的將被mask掉,默認值為10
  [-r C]       = 用C替代低質量的鹼基,默認用N來替代
  [-z]          = 輸出用GZIP壓縮.
  [-i INFILE]  = 輸入FASTA文件
  [-o OUTFILE] = 輸出文件
  [-v]         = 詳細-報告序列編號,如果使用了-o則報告會直接在STDOUT,如果沒有則輸入到STDERR

3. fastq_quality_filter [-h] [-v] [-q N] [-p N] [-z] [-i INFILE] [-o OUTFILE]過濾低質量序列
  [-q N]       = 最小的需要留下的質量值
  [-p N]       = 每個reads中最少有百分之多少的鹼基需要有-q的質量值
  [-z]         =壓縮輸出
  [-v]       =詳細-報告序列編號,如果使用了-o則報告會直接在STDOUT,如果沒有則輸入到STDERR

4. fastq_quality_trimmer [-h] [-v] [-t N] [-l N] [-z] [-i INFILE] [-o OUTFILE] 修剪reads的末端
  [-t N]       = 從5'端開始,低與N的質量的鹼基將被修剪掉
  [-l N]       = 修建之后的reads的長度允許的最短值
  [-z]         = 壓縮輸出
  [-v]       =詳細-報告序列編號,如果使用了-o則報告會直接在STDOUT,如果沒有則輸入到STDERR

5. fastq_to_fasta [-h] [-r] [-n] [-v] [-z] [-i INFILE] [-o OUTFILE]fastq轉換成fasta   [-r]         =  序列用序號重命名
  [-n]         = 保留有N的序列,默認不保留
  [-z]         = 壓縮輸出

6. fastx_trimmer [-h] [-f N] [-l N] [-t N] [-m MINLEN] [-z] [-v] [-i INFILE] [-o OUTFILE]從3'開始到5'哪些部分保留

  [-f N]       = 從第幾個鹼基開始保留,默認第一個
  [-l N]       = 后面從第幾個鹼基開始保留,默認全部鹼基都保留.
  [-t N]       =序列尾部修剪掉N個鹼基.
  [-m MINLEN]  = 修剪掉長度小於MINLEN的序列.

7.  fastx_quality_stats [-h] [-N] [-i INFILE] [-o OUTFILE]fastq文件的質量值進行統計
  [-i INFILE]      = 輸入fastq文件
  [-o OUTFILE] = 輸出的文本文件名字
  [-N]                 =使用新的輸出格式,默認使用老格式
老格式輸出文件:下面一行代表輸出文件的一列
       column=1到36
       count   = 這列有多少鹼基
       min       = 這列的鹼基質量最小值
       max     = 這列的鹼基質量最大值
       sum     = 這列的鹼基質量的總和
       mean   =這列的鹼基質量平均值
       Q1       = 1/4鹼基質量值
       med     = 鹼基質量值的中位數
       Q3      = 3/4鹼基質量值.
       IQR     = Q3-Q1
       lW      = 'Left-Whisker' value (for boxplotting).
       rW      = 'Right-Whisker' value (for boxplotting).
       A_Count =本列A的數目
       C_Count = 本列C的數目.
       G_Count = 本列G的數目.
       T_Count = 本列T的數目.
       N_Count =本列N的數目.
       max-count =鹼基數目的最大值
新的輸出格式:
循環數
最大數目
對每個循環的鹼基 (ALL/A/C/G/T/N):
               count   = 本列鹼基的數目
               min       = 本列鹼基質量的最小值
               max     = 本列鹼基質量的最大值.
               sum     = 本列鹼基質量的綜合.
               mean    = 本列鹼基質量的平均值
               Q1      = 1/4鹼基質量值
               med    = 鹼基質量值的中位數
               Q3      = 3/4鹼基質量值
               IQR     = Q3-Q1
               lW      = 'Left-Whisker' value (for boxplotting).
               rW      = 'Right-Whisker' value (for boxplotting).

8. fastq_quality_boxplot_graph.sh [-i INPUT.TXT] [-t TITLE] [-p] [-o OUTPUT]繪制鹼基質量分布盒式圖
 [-p]         =產生.PS文件,默認產生png圖像
 [-i INPUT.TXT]=輸入文件為 fastx_quality_stats的輸出文件
 [-o OUTPUT]  =輸出文件的名字
 [-t TITLE]        =輸出圖像的標題

9. fastx_nucleotide_distribution_graph.sh [-i INPUT.TXT] [-t TITLE] [-p] [-o OUTPUT]繪制鹼基分布圖
 [-p]          =產生.PS文件,默認產生png圖像.
 [-i INPUT.TXT] =輸入文件為 fastx_quality_stats的輸出文件
 [-o OUTPUT]   =輸出文件的名字.
 [-t TITLE]       =輸出圖像的標題

10. fastx_clipper [-h] [-a ADAPTER] [-D] [-l N] [-n] [-d N] [-c] [-C] [-o] [-v] [-z] [-i INFILE] [-o OUTFILE] 去掉接頭序列
  [-a ADAPTER] =接頭序列(默認為CCTTAAGG)
  [-l N]       = 忽略那些鹼基數目少於N的reads,默認為5
  [-d N]       = 保留接頭序列后的N個鹼基默認  -d 0
  [-c]         = 放棄那些沒有接頭的序列.
  [-C]         = 只保留沒有接頭的序列.
  [-k]         = 報告只有接頭的序列.
  [-n]         = 保留有N多序列,默認不保留
  [-v]         =詳細-報告序列編號
  [-z]         =壓縮輸出.
  [-D]       = 輸出調試結果.
  [-M N]   =要求最小能匹配到接頭的長度N,如果和接頭匹配的長度小於N不修剪
  [-i INFILE]  = 輸入文件
  [-o OUTFILE] = 輸出文件



http://blog.sciencenet.cn/blog-1509670-848270.html 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM