Ballgown是分析轉錄組差異表達的R包。
軟件安裝:
運行R,
source(“http://bioconductor.org/biocLite.R”)
biocLite(“ballgown”)
R會自動安裝Ballgown,及相應的依賴包。
Ballgown的輸入文件
StringTie使用-B參數直接生成Ballgown的輸入文件,Cufflinks的輸出結果需要使用Tablemaker生成Ballgown的輸入文件。
一個有5個輸入文件,分別是:
e_data.ctab,外顯子水平表達量;
i_data.ctab,內含子水平表達量;
t_data.ctab,轉錄本水平表達量;
e2t.ctab,外顯子與轉錄本的對應關系;
i2t.ctab,內含子與轉錄本的對應關系。
Tablemaker
tablemaker -p 4 -q -W -G merged.gtf -o sample01_output sample_01/accepted_hits.bam
-p 指定線程數
-q 去冗余
-W 運行模式是tablemaker,而不是Cufflinks模式
-G 指定組裝好的GTF文件,這個文件由cuffmerge生成
BAM文件是最后一個參數,這個文件由Tophat生產
運行Ballgown
運行R
載入Ballgown包
library(ballgown)
載入數據,並創建一個ballgown項目
bg = ballgown(dataDir=’D:\extdata’, samplePattern=’sample’, meas=’all’)
指定分組,及重復樣本數目:
pData(bg) = data.frame(id=sampleNames(bg), group=rep(c(1,0), each=3))
差異表達分析:
stat_results = stattest(bg, feature=’transcript’, meas=’FPKM’, covariate=’group’)
有些地方我寫得不是很清楚,有一個英文的Tutorial寫得非常好。
https://github.com/alyssafrazee/ballgown