KEGG數據庫


參考:KEGG數據庫中文教程 - 博奧  &【學習筆記】KEGG數據庫 - 微信

學習一個技能最主要的事情你必須知道,那就是能通過它來做什么?

  1. KEGG數據庫里面有什么?
  2. 如何查詢某一特定的代謝途徑(pathway)的信息,例如Glycolysis / Gluconeogenesis?
  3. 如何查詢某一化合物的信息,例如Pyruvate?
  4. 如何查詢Pyruvate涉及了哪些生化反應?
  5. 如何查詢某一基因的信息,例如gltA ?
  6. 如何知道Bacillus subtilis是否有gltA?
  7. 如何查詢 gltA在其他物種中的同源基因?
  8. 如何列出某一代謝途徑中涉及的所有的酶?例如cytrate cycle pathway(TCA循環)
  9. 如何知道人類的cytrate cycle中pyruvate carboxylase這種酶有多少化合物與其發生相互作用?
  10. 如何查詢人類由Citrate生成Acetyl-CoA的可能步驟?
  11. 有一條未知的序列,如何查詢KEGG數據庫中是否有基因或酶與其對應?

生物信息的最上游就是測序,測序直接得到的就是序列信息,然后通過組裝就可以得到基因組或轉錄組信息,接下來就會得到基因的信息,以及基因表達的信息。

那么,我們知道了測出來的物種中的某個基因的序列,及其在轉錄中的表達情況,我們如何確定該基因的功能呢? 百度 知乎

這種思路是不對的,基本沒有人挨個去研究驗證計算機得到的基因,因為太漫無目的,沒人有那么多金錢精力。

現實的是,我對某個重要的現象感興趣(意義重大,好發文章),然后控制該現象最主要的基因,去發現基因的功能,這才是可行的套路。

所以一般是先有表型再去找基因,也就是所謂的正向遺傳學。當然你也可以用反向遺傳學,挨個敲掉基因看有沒有你要的表型。因為科學家一般只關注自己感興趣的基因,所以不會出現你說的那種情況,就是不會追着一個基因非要知道它的功能,而是有目的地找他所關心的基因。

基因功能定位這個很復雜,可以專門開一篇文章了,暫且到此。

假設我們現在有了基因序列及其功能,我們接下來也會知道該基因合成了哪些蛋白,參與了哪些化學反應。

代謝是細胞內各種化學反應的總稱,一個代謝途徑包括代謝的前提、產物和酶。

正文

KEGG就是用來查詢代謝途徑、酶、酶編碼基因和代謝物的,此外還有GenMAPPBioRag等同類型數據庫。

KEGG還可以通過BLAST來查詢未知序列的代謝途徑信息,主要就是同源比對,找相似信息吧。

KEGG網站的邏輯框架:(問題1:KEGG數據庫里面有什么?)

目前KEGG太大了,所以拆成了很多子數據庫,其中最核心的為 KEGG PATHWAY 和 KEGG ORTHOLOGY 數據庫。

image

PATHWAY(代謝途徑數據庫),可以查詢各種代謝途徑。 
BRITE(代謝通路及同源基因數據庫),這個數據與PATHWAY數據庫不同的是,可以查詢酶和底物之間的關系,也可以查詢某種酶的同源基因。  
GENES(基因數據庫), 可以查詢不同的基因或基因組的信息。  
LIGAND(配體數據庫), 可以查詢反應中各種化合物的信息。

PATHWAY數據庫的使用


點擊進入后會發現KEGG收錄了如下代謝途徑:

image

在 KEGG PATHWAY 數據庫中,將生物代謝通路划分為 6 類,分別為:細胞過程(Cellular Processes)、環境信息處理(Environmental Information Processing)、遺傳信息處理(Genetic Information Processing)、人類疾病(Human Diseases)、新陳代謝(Metabolism)、生物體系統(Organismal Systems),其中每類又被系統分類為二、三、四層。第二層目前包括有 43 種子 pathway;第三層即為其代謝通路圖;第四層為每個代謝通路圖的具體注釋信息。

問題2:如何查詢某一特定的代謝途徑(pathway)的信息,例如Glycolysis / Gluconeogenesis?

可以直接在首頁上搜索Glycolysis / Gluconeogenesis,也可以點擊Carbohydrate Metabolism中的Glycolysis / Gluconeogenesis

怎么看懂代謝途徑圖:

方框中表示的是反應中的酶,例如2.7.1.41,這是酶的EC number,國際酶學委員會的編號。
小圓圈代表的是反應中的化合物,例如α-D-Glucose-1P。
箭頭代表的是反應的方向。
虛線表示此反應可以通過中間產物與其他途徑發生聯系。

還可以選擇相對應的物種,如Homo Sapiens(human)。

還可以點進去了解指定酶的詳細信息

以ko04151為例:

imageimage

ORTHOLOGY 數據庫的使用

在 KEGG ORTHOLOGY(直系同源) 數據庫中,將行使相同功能的基因聚在一起,稱為 Ortholog Groups (KO entries),每個 KO 包含多個基因信息,並在一至多個 pathway 中發揮作用。

 

LIGAND數據庫的使用
GENES數據庫的使用
KO數據庫的使用
LinkDB的使用
PathComp的使用
BLAST的使用

代謝通路可視化

使用 pathview, KEGGREST和KEGGgraphR包繪制

正確認識代謝通路富集分析(轉)

我一直建議不要僅僅基於Pathway富集分析的結果解讀數據,人為的解讀和挑選是必不可少的。因為生物數據的解讀,在現階段更多是生物學問題,而不是數學問題。原因大體如下:

(1)基因調控是個系統,不要僅僅看成1個孤立的pathway。

在今年參加的第二屆植物抗逆會議上,1個教授說了一句話,我認為很有道理。“在植物體內其實根本就不存在pathway,什么脫落酸通路,水楊酸通路,其實這些調控因子都是相互聯通,相互影響的,是個整體。只是我們人類為了研究方便,人為將這些系統拆分各個子集。 ” 所以,如果你真的將pathway看成1個個破碎的途徑,以為某種處理只會影響某個pathway,富集分析必須在數學上或統計學上得到1個指向性很強的結論,那是不大可能的。
具體說了,說基因調控是個系統,可以從兩個層面進行解讀:

a)1個基因的改變可以造成整個系統的改變;
舉幾個例子:把1個生命活動必須的蛋白敲除后,整個細胞會發生紊亂。而植物抗病應激,也往往是1個受體蛋白識別了病原的外源蛋白,然后導致整個細胞系統的變化。
b)1個基因往往有多個功能,但執行具體的功能往往是不同蛋白復合物共同作用的結果。
例如,基因X理論上在不同情況下,有可能參與A、B、C通路。在某個生物處理下,或許基因X 只在A通路里起作用。但如果進行基因注釋的話,X同樣也會被注釋到B、C。所以,富集分析的結果總是會涉及特別多的通路。例如,研究人的項目,無論什么研究背景,常常會富集到帕金森綜合症通路。不是你的材料真的得了帕金森綜合症,只是那些與你實驗處理相關的基因,在一定條件下也可以參與到帕金森綜合症的過程,所以被注釋到了這個通路里。
小結:所以,我們也看到了。無論什么實驗處理,總有可能導致整個系統的變化。同時,基因的通路注釋也有欺騙性。那么,從這一堆冗余信息中,想得到與我們研究相關的結論,離不開人為的篩選也解讀。從那個復雜的整體中,篩選出核心的局部片段,這是個技術活。“這樣的話是否存在一個問題就是在結果的解釋上比較主觀,也會因自身背景知識的不足而漏掉一些新穎的結果”。那當然,同樣的結果1個外行可能什么都沒有看見。但1個資深的學者可能會把握到很精彩的內容。好像任何領域都是如此,除了提高內功好像沒有其他捷徑。
(2)pathway富集分析的統計假設,並非在任何情況下都適用

pathway富集分析,在生物學上的假設是:1個pathway上游基因的改變,會導致下游相關基因改變,從而改變通路中大量基因的表達,達到統計學上富集的效果。但很多pathway中,基因A、B、C並不是相互調控的關系,而是共同參與某個過程的不同部分。
例如,代謝物X的合成修飾。基因A、B、C分步驟參與合成的3個步驟。基因A給X前體加了羥基,然后傳遞到下游;基因B又給X前體加了苯環,再傳遞到下游;基因C又給X的前體加了個乙酰基,完成X的合成。那么,基因A、B、C是參與了的相同的通路。如果基因A發生表達量變化,會直接調控影響B、C的表達量變化嗎? 看來很有可能不會,所以從RNA-seq差異分析的富集分析結果中,這個通路是不顯著的。那么基因A的表達變化是否有生物學意義? 當然有,因為代謝物X的合成的確受影響了。
類似的例子,理論上DNA差異甲基化的結果,就不能看pathway富集分析的結果。1個pathway 1個基因的DNA甲基化變化,就足以改變這個通路的基因表達,而不需要整個通路的甲基化都發生變化。DNA甲基化、組蛋白CHIP-seq的結果,其實只看功能注釋、或通路注釋就足夠了,不需要考慮富集。
所以,我們還是要觀察、理解某個核心pathway中基因的相互作用,才能判斷其中的基因變化是否有生物學意義, 而不僅僅看富集分析的p value或Q value。

(3)目前的pathway是不完整的。

目前KEGG等數據庫,收錄的是已有的研究結果。但這些pathway的信息,遠沒有到達完善的水准。大部分通路只是了解1個大概的調控途徑,而中間有什么轉錄因子參與、是否還有其他代謝物的生成,都是不知道的。這些通路的完整性,也會影響pathway富集分析結果。例如,基因A發生變化了,看起來下游基因沒有變化。也許是還有其他的調控在起作用,只是這些調控作用現在還不知道而已。
總結:pathway 和 GO富集分析結果的解讀,應該從生物學意義的角度出發,P value 和 Q value只是個參考而已,那些不顯著的通路也值得解讀(從功能注釋的角度解讀,而不是從富集分析的角度解讀)。只要結果可以解釋,有意義,不用太迷信P value。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM