生信軟件工具-trim_galore


trim_galore


注意:軟件工具一般會定期進行迭代更新,如果使用出現問題,請查看官方文檔。

  1. 網址:http://www.bioinformatics.babraham.ac.uk/projects/trim_galore/

    • 需先安裝fastqc和cutadapt
  2. Trim galore簡介
    Trim Galore是對FastQC和cutadapt的包裝。適用於所有高通量測序,包括RRBS(Reduced Representation Bisulfite-Seq )、 Illumina、Nextera和smallRNA測序平台的雙端和單端數據。主要功能包括兩步:第一步首先去除低質量鹼基,然后去除3' 末端的adapter, 如果沒有指定具體的adapter,程序會自動檢測前1 million的序列,然后對比前12-13bp的序列是否符合以下類型的adapter:

    • Illumina: AGATCGGAAGAGC
    • Small RNA: TGGAATTCTCGG
    • Nextera: CTGTCTCTTATA
  3. 示例:

## 處理雙端測序結果
echo " trim_galore cut adapters started at $(date)"
trim_galore -q 20 --phred33 --stringency 3 --length 20 -e 0.1 \
--paired $dir/cmp/01raw_data/$fq1 $dir/cmp/01raw_data/$fq2  \
--gzip -o $input_data \
-a1 ATCG... \
-a2 TAGC...
echo "trim_galore cut adapters finished at $(date)"
  1. 參數說明:
    --quality:設定Phred quality score閾值,默認為20。

--phred33:選擇-phred33或者-phred64,表示測序平台使用的Phred quality score。

--adapter:輸入adapter序列。也可以不輸入,Trim Galore會自動尋找可能性最高的平台對應的adapter。自動搜選的平台三個,也可以直接顯式輸入這三種平台,即--illumina--nextera--small_rna。其中adapter1 為3'端引物,通常不同組織樣有自己對應的引物,公司提供的word里面都附帶的有,此處執行命令時需要在該序列前添加A,不然程序會提醒adapter不完整a2后面的其實是5'端引物的反向互補序列

--stringency:設定可以忍受的前后adapter重疊的鹼基數,默認為1(非常苛刻)。可以適度放寬,因為后一個adapter幾乎不可能被測序儀讀到。

--length:設定輸出reads長度閾值,小於設定值會被拋棄。

--paired:對於雙端測序結果,一對reads中,如果有一個被剔除,那么另一個會被同樣拋棄,而不管是否達到標准。

--retain_unpaired:對於雙端測序結果,一對reads中,如果一個read達到標准,但是對應的另一個要被拋棄,達到標准的read會被單獨保存為一個文件。

--gzip--dont_gzip:清洗后的數據zip打包或者不打包。

--output_dir:輸入目錄。需要提前建立目錄,否則運行會報錯。

--trim-n : 移除read一端的Ns


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM