UniProt數據庫怎么看

本文轉載自查看原文 2020-06-21 18:32 1032 蛋白組學

由於蛋白質組學的發展，使得蛋白質數據庫也日益豐富，數據庫的專一性及綜合性均增強，而且，通過超文本的鏈接，可以使多個數據庫進行相互的銜接。目前，關於蛋白質的結構，蛋白質質譜等數據庫均較多，今天就來講講使用頻率最高且冗余度最低的uniprot數據庫。

拿到蛋白質組學鑒定結果后，看懂數據庫當然是第一步的。

以常見的牛血清白蛋白（BSA）為例，首先下載BSA的數據庫信息

首先sp表示，Swiss-Prot數據庫是注釋精煉的蛋白序列庫，它的所有序列都經過了科學家的查閱文獻核實(reviewed, manually annotated) 。

P02769是蛋白在uniprot上的ID號，即蛋白的身份證號。

ALBU_BOVIN是蛋白在uniprot上的登錄名，跟P02769是一個作用。

Serum albumin是蛋白名稱，即蛋白的姓名啦。

OS表示Organism，也就是物種名稱，數據庫中的物種名稱一般為拉丁名稱，牛血清白蛋白Bostaurus當然是牛的拉丁。

GN表示gene name,即基因名稱。

PE表示ProteinExistence，即蛋白的可靠性，PE=1、2、3、4、5分別對應如下，可以看出數字越小可靠性越高：

1. Experimental evidence at protein level

2. Experimental evidence at tranlevel

3. Protein inferred from homology

4. Protein predicted

5. Protein uncertain

SV表示SequenceVersion，即序列版本，即蛋白的身份證第二代，第三代……

這里需要指出的是，除了sp，有時還會出現下圖的情況。

唯一不同的只有Tr，這里Tr，TrEMBL數據庫全稱“Translation of EMBL”，是從EMBL中的cDNA序列翻譯得到的，其中TrEMBL收錄的是未經人工注釋的編碼DNA序列翻譯數據。(unreviewed, automatically annotated)，不難看出，相比之下，sp數據庫更可靠。

登陸uniprot官方網站（http://www.uniprot.org/，見截圖）即可看到，目前uniprot網站收錄的sp數據庫有554241條蛋白條目，tr數據庫有84827567條。當然這一數據每天都有更新。更多數據庫參考信息相關鏈接：

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Uniprot數據庫 UniProt數據庫使用簡介 Uniprot 數據庫-最常用的蛋白質數據庫 gene ID轉換（gene ID轉為protein ID） pathway注釋 string數據庫的方法 UniProt 數據庫：數據庫編程什么是數據庫，為什么要學習數據庫數據庫之數據庫對比數據庫多實例卸載數據庫數據庫與ORM