HISAT2,StringTie,Ballgown處理轉錄組數據


HISAT2,StringTie,Ballgown處理轉錄組數據 

本文總閱讀量

HISAT2,StringTie,Ballgown處理轉錄組數據思路如下:

  1. 數據質控
  2. 將RNA-seq的測序reads使用hisat2比對
  3. samtools將sam文件轉成bam,並且排序,為下游分析做准備
  4. stringtie對每個樣本進行轉錄本組裝
  5. stringtie 將所有樣本的轉錄本進行合並 注意:此處的mergelist.txt是自己創建的
  6. 計算表達量並且為Ballgown包提供輸入文件
  7. Ballgown的安裝 分析,需提供一個分組信息;

0.數據質控(QC):
Ubuntu軟件包內自帶Fastqc,故安裝命令apt-get install fastqc
fastqc命令:
fastqc -o . -t 5 SRR3101238_1.fastq.gz &
-o . 將結果輸出到當前目錄
-t 5 表示開5個線程運行
(四個樣本,雙端測序,要分別對八個fastq文件執行八次)

1.將RNA-seq的測序reads使用hisat2比對
准備軟件:
安裝HISAT2
下載地址:
http://ccb.jhu.edu/software/hisat2/downloads/
wget http://ccb.jhu.edu/software/hisat2/downloads/hisat2-2.0.0-beta-Linux_x86_64.zip -P ./
解 壓 縮:
unzip hisat2-2.0.0-beta-Linux_x86_64.zip

准備文件:

  1. 參考基因組序列;genome (chr.fa)
  2. 參考基因組的注釋文件;genes (chr.gtf)
  3. Hisat2索引文件;indexes (chr_tran.1.ht2)
  4. 測序數據;samples (chr_1.fastq.gz, chr_2,fastq.gz;樣本表型信息 與 樣本列表)

下載人類參考基因組和注釋文件:
1.1 人類參考基因組:Hisat2官網上有Ensemble GRCh38的基因組索引, 鏈接:http://ccb.jhu.edu/software/hisat2/index.shtml
1.2 注釋文件:下載自ensemble數據庫ftp://ftp.ensembl.org/pub/release-86/gtf/homo_sapiens
1.3 索引文件的創建:從gtf文件中構建索引,命定如下:
extract_exons.py hg19.annotation.gtf > exons.txt
extract_splice_sites.py hg19.annotation.gtf > splicesites.txt

創建索引另外一種方法:
hisat2-build [options]*<reference_in><ht2_base>

<reference_in>:用於指定參考基因組;

<ht2_base>:用於指定生成的索引文件的基名;

./hisat2-2.0.0-beta/hisat2-build -f ucsc.hg19.fasta –ss splicesites.txt –exon exons.txt -p 7 ./ucsc.hg19

#添加–ss和–exon選項后,需要很大的內存,build 人基因組的話需要200G RAM,如果沒有這么大內存,不要添加這兩個選項,但要在后續運行hisat時添加 –known-splicesite-infile選項(見下文)
如hisat2-build -f ucsc.hg19.fasta -p 7 ./uscs.hg19 ##大概需要一小時二十分鍾

(1). 比對,生成bam文件:“將RNA-seq的測序reads使用hisat2比對對參考基因租組”
hisat2 -q -x ./ucsc.hg19 -1 reads_1.fastq -2 reads_2.fastq -S alns.sam -t

hisat2 -q -x ./ucsc.hg19 -1 reads_1.fastq -2 reads_2.fastq -S alns.sam –known-splicesite-infile splicesites.txt -t

-x :用於指定參考基因組所對應的索引文件;

-1, -2: 用於指定測序 Reads 所在的文件;

-S:用於指定存儲比對結果的文件名;

-p: 用於指定線程數;

(2) Sort and convert the SAM files to BAM

samtools sort -@ 8 -o ERR188044_chrX.bam ERR188044_chrX.sam

-@:用於指定線程數;

-o:用於指定存儲轉化結果的文件名;

注:*.bam 格式的文件為二進制文件;

在-b 指定的文件夾下生成特定的文件
e2t.ctab
e_data.ctab
i2t.ctab
i_data.ctab
t_data.ctab
e即外顯子、i即內含子、t轉錄本;
e2t即外顯子和轉錄本間的關系,
i2t即內含子和轉錄本間的關系,
t_data即轉錄本的數據

(3) assemble and quantify expressed genes and transcripts

stringtie -p 8 -G chrX_data/genes/chrX.gtf -o ERR188044_chrX.gtf -l ERR188044 ERR188044_chrX.bam

-G :用於指導組裝過程的參考注釋的文件;

-o:用於指定存儲組裝結果的文件名;

-l: 為轉錄本的ID指定前綴;

-p: 用於指定線程數;

(4) Merge transcripts from all samples:

stringtie –merge -p 40 -G chrX_data/genes/chrX.gtf -o stringtie_merged.gtf chrX_data/mergelist.txt

-G :用於指導組裝過程的參考注釋文件;

-o:用於指定存儲組裝結果的文件名;

-p: 用於指定線程數;

注: mergelist.txt 文件包含所有*.gtf 文件名的列表, 並且每個文件名占據一行。

(5) Examine how the transcripts compare with the reference annotation (optional)

./bin/gffcompare -r chrX_data/genes/chrX.gtf -G -o merged stringtie_merged.gtf

-r :用於指定參考的注釋文件;

-o:用於指定存儲結果的文件名的前綴;

-G:用於指定是否比較所有轉錄本(即使是冗余的);

(6) Estimate transcript abundances and create table counts for Ballgown

stringtie -e -B -p 48 -G stringtie_merged.gtf -o ballgown/ERR188044/ERR188044_chrX.gtf ERR188044_chrX.bam

-e:用於指定是否僅為參考轉錄本估計表達豐度;

-B:用於指定是否輸出 Ballgown table 文件;

-p: 用於指定線程數;

-G :用於指定已組裝的注釋文件;

-o:用於指定輸出結果的文件名;


 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM