fastx_toolkit軟件使用說明

本文轉載自查看原文 2016-12-08 20:07 5304 fastx_toolkit

高通量測序數據下機后的原始fastq文件，包含4行，其中一行為質量值，另外一行則為對應序列，我們都了解高通量的數據處理首先要進行質量控制，這些過程包括去接頭、過濾低質量reads、去除低質量的3’和5’端，去除N較多的reads等，而針對高通量測序數據的質控軟件也有很多，在這里給大家介紹一款“老牌子”的質控工具fastx_toolkit，它是一個軟件包，包含了多個質控命令，下面我們就逐個講解其參數及使用：

1. fastq_quality_converter [-h] [-a] [-n] [-z] [-i INFILE] [-f OUTFILE]直觀觀察質量值
[-h] =打印幫助
[-a] = 輸出ASCII的質量得分(默認).
[-n] = 輸出質量值數據.
[-z] = GZIP壓縮輸出.
[-i INFILE] = 輸入fasta/fastq格式的文件.
[-o OUTFILE] = 輸出fasta/fastq文件.

2. fastq_masker [-h] [-v] [-q N] [-r C] [-z] [-i INFILE] [-o OUTFILE]屏蔽低質量鹼基
[-q N] =質量門限值，質量值低於這個門限值的將被mask掉，默認值為10
[-r C] = 用C替代低質量的鹼基，默認用N來替代
[-z] = 輸出用GZIP壓縮.
[-i INFILE] = 輸入FASTA文件
[-o OUTFILE] = 輸出文件
[-v] = 詳細-報告序列編號，如果使用了-o則報告會直接在STDOUT，如果沒有則輸入到STDERR

3. fastq_quality_filter [-h] [-v] [-q N] [-p N] [-z] [-i INFILE] [-o OUTFILE]過濾低質量序列
[-q N] = 最小的需要留下的質量值
[-p N] = 每個reads中最少有百分之多少的鹼基需要有-q的質量值
[-z] =壓縮輸出
[-v] =詳細-報告序列編號，如果使用了-o則報告會直接在STDOUT，如果沒有則輸入到STDERR

4. fastq_quality_trimmer [-h] [-v] [-t N] [-l N] [-z] [-i INFILE] [-o OUTFILE] 修剪reads的末端
[-t N] = 從5'端開始，低與N的質量的鹼基將被修剪掉
[-l N] = 修建之后的reads的長度允許的最短值
[-z] = 壓縮輸出
[-v] =詳細-報告序列編號，如果使用了-o則報告會直接在STDOUT，如果沒有則輸入到STDERR

5. fastq_to_fasta [-h] [-r] [-n] [-v] [-z] [-i INFILE] [-o OUTFILE]fastq轉換成fasta [-r] = 序列用序號重命名
[-n] = 保留有N的序列，默認不保留
[-z] = 壓縮輸出

6. fastx_trimmer [-h] [-f N] [-l N] [-t N] [-m MINLEN] [-z] [-v] [-i INFILE] [-o OUTFILE]從3'開始到5'哪些部分保留

[-f N] = 從第幾個鹼基開始保留，默認第一個
[-l N] = 后面從第幾個鹼基開始保留，默認全部鹼基都保留.
[-t N] =序列尾部修剪掉N個鹼基.
[-m MINLEN] = 修剪掉長度小於MINLEN的序列.

7. fastx_quality_stats [-h] [-N] [-i INFILE] [-o OUTFILE]fastq文件的質量值進行統計
[-i INFILE] = 輸入fastq文件
[-o OUTFILE] = 輸出的文本文件名字
[-N] =使用新的輸出格式，默認使用老格式
老格式輸出文件：下面一行代表輸出文件的一列
column=1到36
count = 這列有多少鹼基
min = 這列的鹼基質量最小值
max = 這列的鹼基質量最大值
sum = 這列的鹼基質量的總和
mean =這列的鹼基質量平均值
Q1 = 1/4鹼基質量值
med = 鹼基質量值的中位數
Q3 = 3/4鹼基質量值.
IQR = Q3-Q1
lW = 'Left-Whisker' value (for boxplotting).
rW = 'Right-Whisker' value (for boxplotting).
A_Count =本列A的數目
C_Count = 本列C的數目.
G_Count = 本列G的數目.
T_Count = 本列T的數目.
N_Count =本列N的數目.
max-count =鹼基數目的最大值
新的輸出格式：
循環數
最大數目
對每個循環的鹼基 (ALL/A/C/G/T/N):
count = 本列鹼基的數目
min = 本列鹼基質量的最小值
max = 本列鹼基質量的最大值.
sum = 本列鹼基質量的綜合.
mean = 本列鹼基質量的平均值
Q1 = 1/4鹼基質量值
med = 鹼基質量值的中位數
Q3 = 3/4鹼基質量值
IQR = Q3-Q1
lW = 'Left-Whisker' value (for boxplotting).
rW = 'Right-Whisker' value (for boxplotting).

8. fastq_quality_boxplot_graph.sh [-i INPUT.TXT] [-t TITLE] [-p] [-o OUTPUT]繪制鹼基質量分布盒式圖
[-p] =產生.PS文件，默認產生png圖像
[-i INPUT.TXT]=輸入文件為 fastx_quality_stats的輸出文件
[-o OUTPUT] =輸出文件的名字
[-t TITLE] =輸出圖像的標題

9. fastx_nucleotide_distribution_graph.sh [-i INPUT.TXT] [-t TITLE] [-p] [-o OUTPUT]繪制鹼基分布圖
[-p] =產生.PS文件，默認產生png圖像.
[-i INPUT.TXT] =輸入文件為 fastx_quality_stats的輸出文件
[-o OUTPUT] =輸出文件的名字.
[-t TITLE] =輸出圖像的標題

10. fastx_clipper [-h] [-a ADAPTER] [-D] [-l N] [-n] [-d N] [-c] [-C] [-o] [-v] [-z] [-i INFILE] [-o OUTFILE] 去掉接頭序列
[-a ADAPTER] =接頭序列（默認為CCTTAAGG）
[-l N] = 忽略那些鹼基數目少於N的reads，默認為5
[-d N] = 保留接頭序列后的N個鹼基默認 -d 0
[-c] = 放棄那些沒有接頭的序列.
[-C] = 只保留沒有接頭的序列.
[-k] = 報告只有接頭的序列.
[-n] = 保留有N多序列，默認不保留
[-v] =詳細-報告序列編號
[-z] =壓縮輸出.
[-D] = 輸出調試結果.
[-M N] =要求最小能匹配到接頭的長度N，如果和接頭匹配的長度小於N不修剪
[-i INFILE] = 輸入文件
[-o OUTFILE] = 輸出文件

轉載本文請聯系原作者獲取授權，同時請注明本文來自熊朝亮科學網博客。
鏈接地址：http://blog.sciencenet.cn/blog-1509670-848270.html

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 fastx_toolkit去除測序數據中的接頭和低質量的reads chrony軟件使用說明軟件使用說明書《一起》Alpha版軟件使用說明軟件內部測試版——使用說明佳博GprinterApp編輯軟件使用說明 JSHint 使用說明 WebScarab使用說明 ConfigMap使用說明 gitlab使用說明