1、GO資源簡介
由於生物系統的驚人復雜性和需要分析的數據集的不斷增加,生物醫學研究越來越依賴於以可計算的形式存儲的知識。基因本體論(GO)項目為基因功能和基因產物的可計算知識提供了目前最全面的資源。GO知識庫由兩個主要部分組成:
基因本體論Gene Ontology (GO),提供了生物功能(“術語”)及其相互關系的邏輯結構,表現為有向無環圖。
GO注釋(GO annotations)的語料庫,將特定的基因產物(蛋白質、非編碼RNA或大分子復合物,為簡單起見,我們通常將其稱為“基因”)與特定的本體術語關聯起來的基於證據的陳述。
本體論和注釋一起旨在描述一個全面的生物系統模型。目前,GO知識庫包含了14萬多篇已發表論文的實驗結果,其中包括60多萬篇實驗支持的GO注釋。這些數據集為跨越生命之樹的不同生物體提供了超過600萬個功能注釋的額外推斷提供了核心數據集。除了這個核心知識庫之外,GOC資源還包括對本體進行編輯和邏輯推理的軟件、對本體和注釋的web訪問以及使用GO知識庫支持生物醫學研究的分析工具。
基因本體論和注釋的使用:基因本體論注釋最常用來解釋大規模的分子生物學實驗,有時也稱為“組學”實驗。這些實驗測量的要么是基因產物(RNA和蛋白質),要么是基因DNA序列的變異,要么是蛋白質代謝的小分子。因此,它們都與基因功能有關。一個典型的組學實驗測量數千個分子的水平,使其難以解釋潛在的分子變化(例如癌細胞和正常細胞之間的變化)。“基因本體論富集分析”識別共同作用的相關基因群,將數千個分子變化減少到更少的生物功能,從而有可能理解分子變化的含義。基因本體論也是一項以可計算的形式表達大量生物醫學知識的重大努力的中心。它與許多其他生物醫學本體相聯系,是研究將計算機科學應用於生物學和醫學的基礎。
2、Ontology Documentation
基因本體論定義了一系列與基因功能相關的概念(“GO terms”),以及這些功能之間是如何相互關聯的(“關系”)。隨着生物知識的積累,它不斷地被修訂和擴充。GO從三個方面描述功能:分子功能(由基因產物執行的分子水平活動)、細胞成分(基因產物執行功能的相對於細胞結構的位置)和生物過程(由多個分子活動完成的較大過程或“生物程序”)。正在進行的本體論修訂由一組在生物學和計算知識表示方面具有豐富經驗的高級本體論編輯管理。本體更新由GOC本體團隊與請求更新的科學家協作進行。大多數請求來自於對GO進行注釋的科學家(通常每個注釋只影響幾個術語)和生物學特定領域的領域專家(通常修改包含許多術語和關系的本體的整個“分支”)。我們邀請研究人員和計算科學家提交對本體論中的新術語或新關系的請求。GO本體(GO ontology)的結構是一個有向無環圖,其中每個術語都定義了與同一域中的一個或多個術語的關系,有時還定義了與其他域的關系。GO詞匯表被設計成與物種無關的,包括適用於原核生物、真核生物以及單細胞和多細胞生物的詞匯。以GO注釋為例,基因產物“細胞色素c”可以用分子功能術語“氧化還原酶活性”、生物過程術語“氧化磷酸化”、細胞成分術語“線粒體基質”和“線粒體內膜”來描述。
Ontologies
2.1、Molecular Function:
一種分子過程,通常通過與其他分子實體的直接物理相互作用,通過單個大分子機器的作用來完成。在這個意義上,功能是指基因產物(或復合物)執行的一個動作或活動。這些作用從兩個不同但相關的角度來描述:(1)生物化學活動,(2)作為一個更大的系統/過程的組成部分的作用。
2.2、cellular component
這些術語描述了大分子機器在執行分子功能時所占據的相對於細胞間隔和結構的位置。生物學家有兩種方法來描述基因產物的位置:(1)相對於細胞結構(如質膜的細胞質側)或細胞間隔(如線粒體);(2)相對於穩定的大分子復合物(如核糖體)。與氧化石墨烯的其他方面不同,細胞成分的概念不是指過程,而是指細胞解剖。
2.3、Biological Process
生物過程代表了生物體通過基因編程來實現的特定目標。生物過程通常用其結果或結束狀態來描述,例如,細胞分裂的生物過程導致從單個母細胞產生兩個子細胞(一個分裂的細胞)。生物過程是由特定基因產物(或大分子復合物)執行的一組特定的分子功能完成的,通常以高度調控的方式和特定的時間序列完成。
3、GO注釋(GO anntion)
基因本體論:生物學模型的框架。GO定義了用於描述基因功能的概念/類,以及這些概念之間的關系。它從三個方面對函數進行分類。GO注釋是關於特定基因功能的陳述。每個GO注釋由一個基因和一個GO術語之間的關聯組成。這些陳述共同構成了當前生物知識的“快照”。關於基因功能的不同知識片段可能會被建立到不同的程度,這就是為什么每個GO注釋總是引用它所基於的證據。證據以GO“證據代碼”的形式呈現,或者是發布的引用,或者是用於創建注釋的方法的描述。然而,所有GO注釋最終都直接或間接地得到了科學文獻的支持。GO證據代碼描述了證據,並大致反映了帶注釋的斷言與直接實驗證據的距離有多遠,以及該證據是否經過了專家biocurator的審查。
4、證據
4.1、Experimentally-supported注釋。
實驗(EXP)證據代碼表明,有來自實驗的證據直接支持該基因的注釋。例如,由免疫熒光確定的基因產物與其亞細胞定位之間的聯系將由直接試驗(IDA)證據代碼(EXP證據的亞型)推斷得到支持。具有直接實驗證據的注釋由biocurator創建,biocurator是受過計算知識表示方面培訓的博士級專家,他們閱讀同行評審的文獻並創建GO注釋。
4.2、Phylogenetically-inferred注釋。
系統發育原理通過重構進化事件來推斷基因之間的關系,為深入了解基因功能提供了一種強有力的方法。自2008年以來,GOC一直支持一項專門的系統發育注釋工作,該工作在過去幾年得到了擴展。系統發育注釋方法已發表。簡單地說,我們已經開發了一個軟件(PAINT, Phylogenetic Annotation推斷工具),通過這個軟件,一個biocurator可以查看一個基因家族中所有的基因實驗注釋,並利用這些信息來推斷這個家族中沒有特征的成員的注釋。生物調節器在一個家族系統發育樹的特定分支上建立了一個明確的基因功能得失模型。該模型用於推斷家族基因的新注釋(即不與實驗注釋重疊)。該模型用於推斷家族基因的新注釋(即不與實驗注釋重疊)。基於系統發育的注釋由IBA(從生物祖先推斷)證據代碼表示。每個推斷的注釋都可以追溯到作為斷言基礎的直接實驗注釋。GO系統發育注釋項目現在是GO知識庫中人工審閱注釋的最大來源,而且它極大地增加了注釋的數量,即使是在已經進行了充分實驗研究的生物體中也是如此。
4.3、Computationally-inferred注釋
最后,與直接實驗結果相差最遠的是“電子”(IEA)證據碼,它不單獨審查(盡管通常涉及對樣本進行廣泛的手工審查)。iaea支持的注釋最終基於同源性和/或其他實驗或序列信息,但通常不能追溯到實驗源。這些注釋的主體由三個方法組成。第一個也是最全面的方法是InterPro2GO,它是基於一個GO術語與一組同源蛋白的廣義序列模型(“簽名”)的策划關聯。與信號具有統計學意義的匹配的蛋白質序列被分配到與簽名相關的GO項,這是同源推理的一種形式。第二種方法是將UniProt控制的詞匯項(主要是描述酶活性的酶佣金數和描述亞細胞位置的UniProt關鍵字)轉換為相關GO項。最后,根據從bl基因樹中推斷出的1:1的同源基因進行注釋,這種方法自動將實驗中在一個基因中發現的注釋轉移到同一分類枝(如脊椎動物枝內的注釋和植物枝內的注釋)中的1:1的同源基因上。
5、GO Enrichment Analysis
GO的主要用途之一是對基因集進行富集分析。例如,給定一組在特定條件下上調的基因,富集分析將使用該基因集的注釋發現哪些GO術語被過度表達(或未被充分表達)。
背景頻率是在整個背景集中注釋到GO項的基因數量,而樣本頻率是輸入列表中注釋到GO項的基因數量。例如,如果輸入列表包含10基因和生物過程的濃縮了釀酒酵母的背景集包含6442個基因,如果5個的10個輸入基因注釋術語:DNA修復,那么采樣頻率對DNA修復將5/10。而如果在所有的釀酒酵母基因組中有100個基因被注釋到DNA修復中,那么背景頻率將是100/6442。p值是在一個特定GO項注釋的列表中n個基因中至少有x個基因的概率或機會,給定該GO項注釋的基因在整個基因組中的比例。也就是說,將用戶列表中的基因共享的GO術語與注釋的背景分布進行比較。p值越接近於零,與該基因組相關的特定GO項越顯著(即,該特定GO項對一組基因的注釋偶然發生的可能性越小)。換句話說,在搜索過程本體時,如果一組基因中所有的基因都與“DNA修復”相關,那么這個術語就很重要。然而,由於基因組中的所有基因(帶有GO注釋)都間接地與頂級術語“biological_process”相關,因此,如果一個組中的所有基因都與這個非常高的級別術語相關,那么這並不重要。