注釋過程:這一步一般都需要手動去鑒定和校正,當然也可以利用一些軟件來校正,運用這類過程的 軟件 JIGSAW、 EVidenceModeler (EVM)和 GLEAN (以及后續軟件 Evigan) 。 通過估計每一個來源的基因證據誤差的類型和頻率, 進而選擇誤差最小的結果
maker
需要的數據包括dpp開頭(這里dpp是這個例子中注釋對象的簡稱)的以下文件
protein表示是同源物種的蛋白序列,est是表達序列標簽,存放的是片段化的cDNA序列,而contig則是需要被預測的基因組序列。
由於基因組注釋設計到多個程序,多個步驟,每個步驟可能都有很多參數需要調整,因此就需要建立專門的配置文件用來告訴maker應該如何控制流程的運行。
如下步驟創建三個以ctl結尾的配置文件
- maker_exe.ctl: 執行程序的路徑
- maker_bopt.ctl: BLAST和Exonerate的過濾參數
- maker_opt.ctl: 其他信息,例如輸入基因組文件
maker_exe.ctl和maker_bopt.ctl可以簡單用less查看,可不做修改,maker_opt.ctl是主要調整的對象。 使用vim maker_opt.ctl
修改如下內容
genome=dpp_contig.fasta est=dpp_est.fasta protein=dpp_protein.fasta est2genome=1
修改完之后多花幾分鍾看看每個參數的設置,盡管很枯燥,但是考慮這個工具你可能會反復多次使用,所以這點時間是一定要花的。
隨后就可以在當前路徑運行程序
~/opt/biosoft/maker/bin/maker &> maker.log &
輸出結果見"dpp_contig.maker.output", 重點是"dpp_contig_master_datastore_index.log"文件,由於maker會拆分數據集並行計算,因此該文件記錄總體的運行情況,需要關注其中是否有"FAILED","RETRY","SKIPPED_SAMLL","DIED_SIPPED_PERMANET",因為這意味着有些數據出於某些原因沒有運算。
最后,我們需要將並行運算的結果進行整合,導出GFF文件, 轉錄本序列和蛋白序列
~/opt/biosoft/maker/bin/fasta_merge -d dpp_contig_master_datastore_index.log ~/opt/biosoft/maker/bin/gff3_merge -d dpp_contig_master_datastore_index.log
在該目錄下就會出現, "dpp_contig.all.gff", "dpp_contig.all.maker.proteins.fasta","dpp_contig.all.maker.transcripts.fasta"
其中GFF文件就需要用IGV,JBrowse, Apollo下展示來檢查下注釋是否正確。
GLEAN 及后續軟件 Evigan
Glean之前的總結:https://www.cnblogs.com/bio-mary/p/12257159.html
Evigan:整合基因證據用於真核基因預測的隱藏變量模型。Evigan是用於真核基因組的自動化基因注釋程序,它利用概率推理來整合多種基因證據來源。概率模型是動態貝葉斯網絡,其參數經過調整以最大化觀察到的證據的概率。然后通過最大似然解碼得出共識基因預測,得出n-最佳模型(每個模型都有概率)。Evigan能夠適應多種證據類型,包括(但不限於)由各種基因發現者計算的基因模型,BLAST命中,EST匹配和剪接位點預測;學習的參數編碼證據來源的相對質量。由於不需要單獨的訓練數據(除了各個基因發現者使用的訓練集),Evigan對於新序列化的基因組特別有吸引力,在新測序的基因組中,幾乎沒有可靠的手動管理注釋可用。產生替代基因模型的排序列表的能力可以促進鑒定選擇性剪接的轉錄本。在人類基因組,間日瘧原蟲和擬南芥基因組的ENCODE區的實驗應用 表明Evigan的性能要優於用作證據的任何單個數據源。
Evigan是一種真核基因預測因子,通過整合多種證據來源產生共識基因模型。Evigan可以納入各種類型的證據,例如由基因發現者預測的基因模型,EST匹配,蛋白質與基因組比對等。利用動態貝葉斯網絡(DBN),Evigan可以通過推斷觀察到的最可能的共有基因模型來進行預測。來源證據。它的模型參數是通過Expectation-Maximization(EM)算法估算的,從而不需要經過整理的訓練數據。
EVM
使用 EvidenceModeler(EVM) 將同源,denovo和轉錄組的結果組裝成非冗余的基因結構。進一步根據Cscore > 0.5,peptide coverage > 0.5 和CDS overlaping with TE進行篩選。還有過濾掉超過30%編碼區被Pfam或Interprot TE domain的注釋的基因模型。
來源:
https://blog.csdn.net/msw521sg/article/details/52350347對https://www.nature.com/articles/nrg3174
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4286374/
A beginner's guide to eukaryotic genome annotation的中文翻譯版
http://www.doc88.com/p-7304335383757.html
https://www.jianshu.com/p/f6c3718bda62
https://yq.aliyun.com/articles/650492
https://academic.oup.com/bioinformatics/article/24/5/597/202036