使用BRAKER2進行基因組注釋


來自:https://www.jianshu.com/p/e6a5e1f85dda

使用BRAKER2進行基因組注釋

BRAKER2是一個基因組注釋流程,能夠組合GeneMark,AUGUSTUS和轉錄組數據。

在使用軟件之前,有幾點需要注意下

  • 盡量提供高質量的基因組。目前隨着三代測序價格下降,這一點問題不大。
  • 基因組命名應該簡單,最好就是">contig1"或">tig000001"
  • 基因組需要屏蔽重復序列
  • 默認參數通常表現效果就很好,但是也要根據物種來
  • 一定要對注釋結果進行檢查,別直接使用

軟件安裝

BRAKER的依賴軟件不少,且Perl需要安裝的模塊也很多,我們用conda能解決這些問題(需要添加bioconda頻道)

安裝結束后會輸出一些提示信息,匯總以下就是

  • 保證AUGUSTUS的config目錄能夠有可寫權限(自己用conda安裝不需要考慮這個問題)
  • GeneMark和GenomeThreader還需要額外下載安裝

我們一定要安裝的就是GeneMark,需要從 http://exon.gatech.edu/GeneMark/license_download.cgi 下載安裝,然后添加環境變量

此外還有一些BRAKER2建議的軟件,conda沒有安裝,需要自己按需安裝

  • DIAMOND 0.9.24: 替代NCBI-BLAST+
  • cdbfasta 0.99: 糾正AUGUSTUS預測的開放閱讀框內內含有終止密碼子的基因
  • cdbyank 0.981: 糾正AUGUSTUS預測的開放閱讀框內內含有終止密碼子的基因
  • GenomeThreader: 僅在你需要用蛋白數據進行注釋時,才需要

關於這些conda未安裝的軟件參考https://github.com/Gaius-Augustus/BRAKER#optional-tools

cdbfastacdbyank為例

之后可以添加到環境變量

 

也可以復制到conda建立的braker2的環境中,其中~/miniconda3是我conda的路徑

 

安裝完成之后,建議現運行下面這一步檢查軟件依賴

軟件運行

BRAKER根據數據類型,有不同的運行模式,但根據現狀其實最常見的情況是測了一個基因組,並且還測了二代的轉錄組,或許還有一些近緣物種的蛋白序列。因此假設你手頭有下面這些數據

  • 基因組序列: genome.fasta
  • 轉錄組數據: XX_1.fq.gz, XX_2.fq.gz
  • 蛋白序列: proteins.fa

第一步: 屏蔽基因組中的重復序列,這一步參考使用RepeatModeler和RepeatMasker注釋基因組重復序列

這一步輸出的genome.fasta.masked將是后續注釋的輸入

第二步: 使用STAR將FastQ比對到參考基因組,STAR使用說明參考「RNA-seq分析軟件」RNA-seq比對工具STAR學習筆記

輸入結果為 xx.bam 如果測了多個組裝的轉錄組,為每個樣本運行一次比對生成多個BAM文件。

第三步: 運行BRAKER2

braker.pl最多支持48個線程。

最終會輸出蛋白序列和CDS序列以及GFF文件

可能問題

使用conda安裝時可能會出現的問題

原因是因為faToTwoBit程序出錯

這是因為conda沒能正確處理依賴關系,openssl版本過高,解決方法如下

運行時出現如下警告

無視掉

參考資料

 

關注下方公眾號可獲得更多精彩


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM