trim_galore
注意:軟件工具一般會定期進行迭代更新,如果使用出現問題,請查看官方文檔。
-
網址:http://www.bioinformatics.babraham.ac.uk/projects/trim_galore/
- 需先安裝fastqc和cutadapt
-
Trim galore簡介
Trim Galore是對FastQC和cutadapt的包裝。適用於所有高通量測序,包括RRBS(Reduced Representation Bisulfite-Seq )、 Illumina、Nextera和smallRNA測序平台的雙端和單端數據。主要功能包括兩步:第一步首先去除低質量鹼基,然后去除3' 末端的adapter, 如果沒有指定具體的adapter,程序會自動檢測前1 million的序列,然后對比前12-13bp的序列是否符合以下類型的adapter:- Illumina: AGATCGGAAGAGC
- Small RNA: TGGAATTCTCGG
- Nextera: CTGTCTCTTATA
-
示例:
## 處理雙端測序結果
echo " trim_galore cut adapters started at $(date)"
trim_galore -q 20 --phred33 --stringency 3 --length 20 -e 0.1 \
--paired $dir/cmp/01raw_data/$fq1 $dir/cmp/01raw_data/$fq2 \
--gzip -o $input_data \
-a1 ATCG... \
-a2 TAGC...
echo "trim_galore cut adapters finished at $(date)"
- 參數說明:
--quality
:設定Phred quality score閾值,默認為20。
--phred33
:選擇-phred33
或者-phred64
,表示測序平台使用的Phred quality score。
--adapter
:輸入adapter序列。也可以不輸入,Trim Galore會自動尋找可能性最高的平台對應的adapter。自動搜選的平台三個,也可以直接顯式輸入這三種平台,即--illumina
、--nextera
和--small_rna
。其中adapter1 為3'端引物,通常不同組織樣有自己對應的引物,公司提供的word里面都附帶的有,此處執行命令時需要在該序列前添加A,不然程序會提醒adapter不完整a2后面的其實是5'端引物的反向互補序列
--stringency
:設定可以忍受的前后adapter重疊的鹼基數,默認為1(非常苛刻)。可以適度放寬,因為后一個adapter幾乎不可能被測序儀讀到。
--length
:設定輸出reads長度閾值,小於設定值會被拋棄。
--paired
:對於雙端測序結果,一對reads中,如果有一個被剔除,那么另一個會被同樣拋棄,而不管是否達到標准。
--retain_unpaired
:對於雙端測序結果,一對reads中,如果一個read達到標准,但是對應的另一個要被拋棄,達到標准的read會被單獨保存為一個文件。
--gzip
和--dont_gzip
:清洗后的數據zip打包或者不打包。
--output_dir
:輸入目錄。需要提前建立目錄,否則運行會報錯。
--trim-n
: 移除read一端的Ns