來自:https://www.jianshu.com/p/e6a5e1f85dda
使用BRAKER2進行基因組注釋
BRAKER2是一個基因組注釋流程,能夠組合GeneMark,AUGUSTUS和轉錄組數據。
在使用軟件之前,有幾點需要注意下
- 盡量提供高質量的基因組。目前隨着三代測序價格下降,這一點問題不大。
- 基因組命名應該簡單,最好就是">contig1"或">tig000001"
- 基因組需要屏蔽重復序列
- 默認參數通常表現效果就很好,但是也要根據物種來
- 一定要對注釋結果進行檢查,別直接使用
軟件安裝
BRAKER的依賴軟件不少,且Perl需要安裝的模塊也很多,我們用conda能解決這些問題(需要添加bioconda頻道)
安裝結束后會輸出一些提示信息,匯總以下就是
- 保證AUGUSTUS的config目錄能夠有可寫權限(自己用conda安裝不需要考慮這個問題)
- GeneMark和GenomeThreader還需要額外下載安裝
我們一定要安裝的就是GeneMark,需要從 http://exon.gatech.edu/GeneMark/license_download.cgi 下載安裝,然后添加環境變量
此外還有一些BRAKER2建議的軟件,conda沒有安裝,需要自己按需安裝
- DIAMOND 0.9.24: 替代NCBI-BLAST+
- cdbfasta 0.99: 糾正AUGUSTUS預測的開放閱讀框內內含有終止密碼子的基因
- cdbyank 0.981: 糾正AUGUSTUS預測的開放閱讀框內內含有終止密碼子的基因
- GenomeThreader: 僅在你需要用蛋白數據進行注釋時,才需要
關於這些conda未安裝的軟件參考https://github.com/Gaius-Augustus/BRAKER#optional-tools
以cdbfasta
和cdbyank
為例
之后可以添加到環境變量
也可以復制到conda建立的braker2的環境中,其中~/miniconda3
是我conda的路徑
安裝完成之后,建議現運行下面這一步檢查軟件依賴
軟件運行
BRAKER根據數據類型,有不同的運行模式,但根據現狀其實最常見的情況是測了一個基因組,並且還測了二代的轉錄組,或許還有一些近緣物種的蛋白序列。因此假設你手頭有下面這些數據
- 基因組序列: genome.fasta
- 轉錄組數據: XX_1.fq.gz, XX_2.fq.gz
- 蛋白序列: proteins.fa
第一步: 屏蔽基因組中的重復序列,這一步參考使用RepeatModeler和RepeatMasker注釋基因組重復序列
這一步輸出的genome.fasta.masked將是后續注釋的輸入
第二步: 使用STAR將FastQ比對到參考基因組,STAR使用說明參考「RNA-seq分析軟件」RNA-seq比對工具STAR學習筆記
輸入結果為 xx.bam 如果測了多個組裝的轉錄組,為每個樣本運行一次比對生成多個BAM文件。
第三步: 運行BRAKER2
braker.pl最多支持48個線程。
最終會輸出蛋白序列和CDS序列以及GFF文件
可能問題
使用conda安裝時可能會出現的問題
原因是因為faToTwoBit
程序出錯
這是因為conda沒能正確處理依賴關系,openssl版本過高,解決方法如下
運行時出現如下警告
無視掉
參考資料
- BRAKER2官方教程: https://github.com/Gaius-Augustus/BRAKER
關注下方公眾號可獲得更多精彩