gene ID轉換(gene ID轉為protein ID) pathway注釋 string數據庫的方法 UniProt


如果轉載,請注明出處。

 

GSEA、David與KEGG、GO數據庫的區別:

1.KEGG數據庫、GO數據庫是知識庫。它們記錄了通路、生物學過程等的信息。

2.GSEA、David是做富集分析的數據庫。它們使用KEGG、GO數據庫中的信息,再結合你輸入的基因列表,對輸入基因列表進行富集分析,給出結果(比如,富集到哪些通路、富集到哪些生物學過程)。

比如,David數據庫,它用fisher exact檢驗,計算富集的通路的pvalue,只輸出p-value達到一定閥值的通路。詳細過程:David數據庫中有30000+個基因,每條通路的富集基因也知道。你輸入的基因列表,比如200個,這200個有100富集到hippo通路。David數據庫中hippo通路有150個基因。那么,這四個數做fisher檢驗,即得出p-value。

比如,GSEA數據庫,它除了使用KEGG、GO數據庫,還有自己的數據集,比如hallmark gene sets。

 

如果我想知道,這些基因都屬於哪些通路?通常基因個數少。那么,用KEGG可以。它可以給出每個基因的通路。如果用GSEA、David,富集程度不夠的通路不會顯示。你也無法得知每個基因所屬的通路。

如果我想知道,這些基因富集到哪些通路中?通常基因個數多。那么,用GSEA、David可以實現。

 

 

gene  symbol轉換為protein ID:

參考資料:https://www.cnblogs.com/wangshicheng/p/11171058.html

工具網站:https://biodbnet-abcc.ncifcrf.gov/db/db2db.php

 

David數據庫的詳細用法說明:

https://david.ncifcrf.gov/helps/functional_annotation.html#summary

David數據庫使用fisher exact test,得到一個p_value。

步驟:

1. 主頁選擇“Function annotation”;

2.點擊Upload。粘貼基因列表。如果基因多(比如2000+),需要上傳文件。文件格式為一列基因列表;

3.點擊submit。(注意:先點擊upload,再點擊submit);

4.選擇物種,點擊“Select Species”;

5.在“Annotation Summary Results”頁面,點擊‘Pathways’,點擊’Chart‘,彈出注釋結果的頁面;(對其它的條目,如“Gene_Ontology"也可以做同樣選擇,下載數據)

6.在該彈出頁面,右鍵單擊“Download file”,選擇“鏈接另存為”。即可將注釋結果的txt格式下載到本地。(曾經我在此步卡住了,╮(╯▽╰)╭)

注意:

1.David也可以設置“Background”基因列表,在其中進行注釋。

 

 

GSEA的用法

1.注釋

選擇“Molecular Signatures Database”和“Investigate gene sets”。看到輸入gene標識的輸入框。

輸入gene 列表,最多不超過2000個。

選擇各種數據庫,比如:KEGG、GO、Hallmark gene sets等。

一定記得選擇物種!一定記得選擇物種!Species:Human   Mouse

q_value可以設置0.1 或者0.05(默認)。

點擊“Compute overlaps”即可。

2.富集 

需要下載一個.jar的包。

需要屬於基因列表,以及每個基因的value值。比如,RNA-seq用cuffdiff跑完后的value值。

執行命令,即可得到曲線樣子的功能富集圖。

 

 

String數據庫:

https://string-db.org/cgi/input.pl?sessionId=wNQljxzwVv2e&input_page_show_search=on

選擇“Multiple proteins”,在右邊的框中輸入gene symbol,選擇物種(小鼠:Mus Musculus;人:Homo species)。點擊“search”。

進入新的頁面后,點擊“continue”。看到生成的蛋白互作圖。

可以看到該圖的Legend,還可以導出該圖。

 

UniProt數據庫:

1. 問題:在UniProt數據庫查詢某物種某個基因(比如,mouse,TP53)的protein ID時,經常有多個protein ID出現。

 原因:查看每個protein ID的“status”,發現有Reviewed和Unreviewed兩種狀態。如果篩選“Reviewed”,則只有一個protein ID出現。Unreviewed protein 有很多。

 繼續提問:為何有UniProt會有這兩種類型的protein ID呢?

 原因:UniProtKB有兩部分。UniProt數據庫中手工挖掘的、且經過管理員review過的記錄,屬於UniProtKB/Swiss-Prot部分(Reviewed);計算機注釋和挖掘的部分,屬於UniProtKB/TrEMBL部分(Unreviewed)。

    一個gene在UniProt中會有多個Reviewed protein ID。比如,基因Hibadh有三個protein ID:Q99L13A0ZNJ2Q8BJY2。其中,第一、三個是Reviewed狀態;第二個是Unreviewed。(KEGG中只有輸入Q99L13時,才能被檢索到,並注釋到通路中。輸入第三個時,在KEGG中注釋不到)

    參考資料:https://www.uniprot.org/help/uniprotkb_sections  https://www.uniprot.org/help/entry_status

 

 關聯問題:為何將“蛋白鑒定表”的Protein ID列的部分Protein ID輸入KEGG注釋,與全部Protein ID輸入KEGG注釋的結果不同呢?

 原因:KEGG對每個基因只有一個protein ID,即UniProt數據庫中reviewed的protein ID。如果在KEGG中輸入Unreviewed protein ID,KEGG不會搜索到該ID,也無法給出該ID的注釋。

 

 

bioDBnet: db2db ID轉換時,給出的結果不全。

比如:sept7只給出了7個結果。而蛋白鑒定表中有10Protein ID

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM