轉錄組組裝軟件stringtie


StringTie是約翰·霍普金斯大學計算機生物中心開發的一款轉錄組組裝軟件,在組裝轉錄本的完整度,精度和速度方面都較以往的cufflinks 有很大的提升,也是目前有參考基因組轉錄組主流的組裝軟件。

軟件的下載

wget http://ccb.jhu.edu/software/stringtie/dl/stringtie-1.3.6.Linux_x86_64.tar.gz
tar zxvf stringtie-1.3.6.Linux_x86_64.tar.gz

StringTie 使用說明:新版本更新之后去掉了一些參數

stringtie <input.bam ..> [-G <guide_gff>] [-l <label>] [-o <out_gtf>] [-p <cpus>]
  [-v] [-a <min_anchor_len>] [-m <min_tlen>] [-j <min_anchor_cov>] [-f <min_iso>]
  [-C <coverage_file_name>] [-c <min_bundle_cov>] [-g <bdist>] [-u]
  [-e] [-x <seqid,..>] [-A <gene_abund.out>] [-h] {-B | -b <dir_path>}

選項:
--version : 輸出軟件的版本信息
-G 參考序列的基因注釋文件 (GTF/GFF3)
-l 輸出轉錄本的名稱前綴 (default: STRG)
-f 最少轉錄本的比例 (default: 0.1)
-m 組裝轉錄本的最小長度 (default: 200)
-o 組裝轉錄本的GTF注釋文件 (default: stdout)
-a 連接位點錨定序列的最小長度 (default: 10)
-j 連接位點的最小覆蓋度 (default: 1)
-t 基於覆蓋度對預測的轉錄本進行修正 (default: coverage trimming is enabled)
-c 組裝轉錄本的reads最小覆蓋度(default: 2.5)
-v 輸出log 信息
-g 比對上的reads 間距大於閥值則新城一個新的轉錄束 (default: 50)
-C 輸出參考轉錄本中被reads 覆蓋到的轉錄本
-M 轉錄束允許多比對reads覆蓋的最大占比 (default:0.95)
-p 線程(CPU)數 (default: 1)
-A 基因豐都輸出文件
-B 在輸出的GFT同目錄下輸出Ballgown table 文件
-b 在 <dir_path> 目錄下輸出Ballgown table 文件
-e 只對參考轉錄本進行豐都評估 (requires -G)
-x 不在參考序列區域組裝任何的新轉錄本
-u 多比對校正 (default: correction enabled)
-h 輸出軟件的幫助信息

軟件的使用
如果是只需要對已知的基因進行定量使用下面的命令

stringtie -p 18 -G Homo_sapiens.GRCh38.89.protein_coding.gtf -B -e -o Ctrl-1.gtf -A Ctrl-1_abundance.txt -l Ctrl-1 Ctrl-1.bam

使用的參數說明

-p 設置運行的線程數
-G 設置GTF基因組注釋文件
-B 在GTF的輸出目錄下輸出ballgown table文件,用於使用ballgown table進行差異表達分析
-e 只對參考轉錄本進行豐度的計算,需要提供GTF注釋文件
-o 輸出生成的GTF注釋文件
-A 輸出基因的豐度計算結果
-l 設置前綴名
最后接輸入的bam文件,輸入的bam文件是要排序之后的文件,一般是默認按照染色體順序排序

如果是需要組裝新的轉錄本使用下面的命令

stringtie CM11.bam -G CM.gtf -o CM11.gtf -f 0.3 -j 3 -c 5 -g 100 -s 10000 -p 24

使用的參數說明

-f 最少的轉錄本比例
-j 連接位點的最小長度
-c 組裝的轉錄本的最小read覆蓋度
-g 比對上的reads 間距大於閥值則新城一個新的轉錄束
-s 新版已經沒有了這個參數,主要當作組裝轉錄本的時候的一個閾值
-p 線程數
  • 比較新的版本才有merge功能,
    轉錄本合並模式使用說明:
  stringtie --merge [Options] { gtf_list | strg1.gtf ...}
  選項
    -G <guide_gff> 參考轉錄本的注釋信息 (GTF/GFF3)
    -o <out_gtf> 合並轉錄本的GTF輸出文件 (default: stdout)
    -m <min_len> 合並轉錄本的最小長度(default: 50)
    -c <min_cov> 合並轉錄本的最低覆蓋度(default: 0)
    -F <min_fpkm> 合並轉錄本的最小FPKM值(default: 1.0)
    -T <min_tpm> 合並轉錄本的最小TPM值(default: 1.0)
    -f <min_iso> isoform 最小比例(default: 0.01)
    -g <gap_len> 轉錄本見GAP長度小於閥值則合並兩轉錄本 (default: 250)
    -i 允許合並轉錄本中有內含子保留; by default
    -l <label> 輸出的轉錄本名稱前綴 (default: MSTRG)

使用方法如下:
需要先將單個樣品得到的gtf放到一個mergelist.txt文件里面,然后使用--merge參數即可,也可以設置-m,-c,-F,-T以及-f等參數對組裝后的轉錄本在merge時進行過濾,同時也可以加入-G 參數輸入參考的gtf注釋文件

stringtie --merge -p 20 -o stringtie_merged.gtf mergelist.txt

<wiz_tmp_tag id="wiz-table-range-border" contenteditable="false" style="display: none;">


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM