為了查找某個研究領域的相關信息,生物學家往往要花費大量的時間,更糟糕的是,不同的生物學數據庫可能會使用不同的術語,好比是一些方言一樣,這讓信息查找更加麻煩,尤其是使得機器查找無章可循。Gene Ontology就是為了解決這種問題而發起的一個項目。
Gene Ontology中最基本的概念是term。GO里面的每一個entry都有一個唯一的數字標記,形如GO:nnnnnnn,還有一個term名,比如"cell", "fibroblast growth factor receptor binding",或者"signal transduction"。每個term都屬於一個ontology,總共有三個ontology,它們分別是molecular function, cellular component和biological process。
一個基因product可能會出現在不止一個cellular component里面,也可能會在很多biological process里面起作用,並且在其中發揮不同的molecular function。比如,基因product "cytochrome c" 用molecular function term描述是"oxidoreductase activity",而用biological process term描述就是"oxidative phosphorylation"和"induction of cell death",最后,它的celluar component term是"mitochondrial matrix"和"mitochondrial inner membrane"。
Ontology中的term有兩種相互關系,它們分別是is_a關系和part_of關系。is_a關系是一種簡單的包含關系,比如A is_a B表示A是B的一個子集。比如nuclear chromosome is_a chromosome。part_of關系要稍微復雜一點,C part_of_D意味着如果C出現,那么它就肯定是D的一部分,但C不一定總會出現。比如nucleus part_of cell,核肯定是細胞的一部分,但有的細胞沒有核。
Ontology的結構是一個有向無環圖,有點類似於分類樹,不同點在於Ontology的結構中一個term可以有不止一個parent。比如 biological process term "hexose biosynthesis" 有兩個parents,它們分別是"hexose metabolism"和"monosaccharide biosynthesis",這是因為生物合成是代謝的一種,而己糖又是單糖的一種。
http://hi.baidu.com/infor123/blog/item/05a5eb127a038f175baf5393.html
