基因組序列注釋 (基因結構預測)


 

基因組組裝完后需要對基因組序列進行注釋。注釋前首先得構建基因模型,有三種策略:

 


同源預測(homology-based prediction):有一些基因蛋白在相近物種間的保守型高,所以可以使用已有的高質量近緣物種注釋信息通過序列聯配的方式確定外顯子邊界和剪切位點


基於轉錄組預測(transcriptome-based prediction):通過物種的RNA-seq數據輔助注釋,能夠較為准確的確定外顯子區域剪切位點

 

從頭注釋(de novo prediction):通過已有的概率模型來預測基因結構,在預測剪切位點和UTR區准確性較低

 

 


每一種方法都有自己的優缺點,所以最后需要用EvidenceModeler(EVM)和GLEAN工具進行整合,合並成完整的基因結構。基於可靠的基因結構,后續可進行功能注釋,蛋白功能域注釋,基因本體論注釋,通路注釋等。

具體方法:

同源注釋:下載幾個其他代表性動植物的完整的蛋白集, 使用 TblastN 將蛋白序列比對到初步組裝結果的序列上,E-value的閾值為1e-5. 將不同蛋白的BLAST的hits用 Solar 軟件進行合並。GeneWise 根據每個BLAST hit的對應基因區域預測完整的基因結構。

同源預測軟件通常利用GeneWise和GeneMoMa,前者是需要同源物種的蛋白序列,后者需要同源物種基因組序列及對應的GFF文件,目前小編已經拋棄GeneWise,使用最多的就是GeneMoMa,但是讓小編十分頭疼的是在准備GFF文件太花費精力,這個軟件真的是挑肥揀瘦,必須滿足其格式才能可以運行,目前從NCBI的Reseq和Ensemble上下載都可以,其他地方來的那就得還點時間寫個腳本改下了。

轉錄組預測:用Tophat將RNA-seq數據比對到初步組裝結果的序列上,然后用cufflinks組裝轉錄本形成基因模型。

轉錄組數據預測PASA軟件是基於Unigene/EST序列進行預測軟件,這個可能就需要拿到一個混樣轉錄組數據首先進行無參組裝,接下來根據Unigene組裝結果在進行比對,通常用Gmap或Blat兩種方法,最好三代全長轉錄本和二代一起來進行預測,這樣可以使得找到的結構更為准確、可靠,此外PASA還有另外的一個功能就是可以用其預測可變剪切,俗稱PASA修飾。

 

從頭預測:先構建repeat-mask genome, 在這個基礎上就用 August, Genescan, GlimmerHMM, Geneid 和 SNAP 預測編碼區

 

Ab initio也就是從頭預測,主要通過探索DNA序列中特異的區域,如基因的起始區域和終止區域,來進行基因預測。目前常用的軟件有Augustus、GlimmerHMM、SNAP、GeneID、GenScan、Brak等。Augustus運用隱馬爾科夫模型,模型在DNA序列和基因結構上定義一個概率分布,采用維特比的算法,它自身帶了一個訓練集,如人、斑馬魚等。在進行預測時可以選擇自帶的訓練集,也可以用挑選轉錄組和同源預測最優結果給它生成一個訓練集。這里順帶說下Braker軟件,它是基於genemaker預測結果作為訓練集,有的使用者Augustus和Braker會二選一。GlimmerHMM是把一個基因看做幾種特征序列,這些特征序列包括內含子、基因間區和四種外顯子(初始、中間、最終和單一外顯子)之后進行有序切換形成馬爾科夫鏈。

GlimmerHMM使用的模型基於以下幾個假設:假設每個基因都開始於起始密碼子ATG;假設每個基因閱讀框內除最后一個密碼子外沒有終止密碼子(no in-frame stop codons)。每個外顯子與前一個外顯子在同一個閱讀框中。(翻譯閱讀時外顯子間沒有移框).它也是需要一個訓練集,通常也是自己生成一個訓練集的效果會略優於已有的一些。(http://ccb.jhu.edu/software/glimmerhmm/man.shtml) 。

SNAP通過隱馬爾科夫模型進行預測,也是需要一個訓練集。 

以上這些軟件都可以自身構建一個訓練集,這里小編覺得畢竟還是用自己的東西舒服,也就是自身訓練結果要稍微優於其他模式生物訓練集。這里小編在做真菌時,從頭軟件一般會選取這三個,GenScan和GeneID就放棄掉了,動植物基因組通常就是多多益善嗎,能用上就都給用上。GenScan也是一款比較經典軟件,通常在預測真核生物(人)還是有不錯的效果。GeneID可以算是元老級,第一代的基因識別軟件,這個准確率不高,通常在整合是權重也不會給太高。

 

 

轉錄本預測得到的潛在蛋白編碼轉錄本使用網頁工具 ORFpredictor 進行預測, 同時用 blastx 和其他代表物種ORF數據進行比較,選擇90%序列相似度和最高5%長度差異的部分從而保證保留完整的編碼框(有啟動子和終止子)。 這些基因模型根據相互之間的相似度和重疊度進行聚類,高度相似(>95)從聚類中剔除,保證非冗余訓練集。為了訓練gene finder, 隨機選取了2000個位點,20%是單個外顯子基因。

最后,使用 EvidenceModeler(EVM) 將上面的結果組裝成非冗余的基因結構。進一步根據Cscore > 0.5,peptide coverage > 0.5 和CDS overlaping with TE進行篩選。還有過濾掉超過30%編碼區被Pfam或Interprot TE domain的注釋的基因模型?

最終結果整合這么多軟件跑出來的結果,有的可靠性高些,比如轉錄組和同源;有一些要稍微差一些如GeneID,那么就需要一個軟件將這些結果進行一個整合,通俗些就是大家放到一起比較下,看下各個軟件預測結果分布情況,本着以少數服從多數原則(這里只是簡單比喻下莫要當真),根據權重打分,使用EVM軟件得到一版最終結果,目前小編用到最多的就是EVM。真菌、植物或動物統統可以搞定,用過一段時間Glean,感覺在整合超大基因時,容易成多個(或許是參數沒有調整合理)。總結上面就是小編在進行基因預測時的一些軟件使用心得,還有是再做一些研究比較多的物種比如水稻等,那同源權重一定要調高,畢竟人家預測出來的經過驗證的,在我們的結果中理論上是應該存在,這樣才能說明我們預測結果是靠譜的嘛;如果研究不是很多,同源比較少,那可以適當調高從頭軟件權重,主要應該以轉錄組為核心。

 

這些基因模型使用BLASTP進行功能注釋,所用數據庫為SWiss-Prot和TrEMBL.蛋白功能使用InterProScan和HMMER注釋,數據庫為InterPro和Pfam。GO注釋則是直接用InterPro和Pfam注釋得到的對應entry。通路注釋使用KEGG數據庫。

可變剪切模型是基於不同組織的RNA-seq的比對組裝結果。

 

參考來源:

https://blog.csdn.net/u012110870/article/details/82500684

http://www.360doc.com/content/17/0809/08/40545172_677713024.shtml


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM