由於蛋白質組學的發展,使得蛋白質數據庫也日益豐富,數據庫的專一性及綜合性均增強,而且,通過超文本的鏈接,可以使多個數據庫進行相互的銜接。目前,關於蛋白質的結構,蛋白質質譜等數據庫均較多,今天就來講講使用頻率最高且冗余度最低的uniprot數據庫。
拿到蛋白質組學鑒定結果后,看懂數據庫當然是第一步的。
以常見的牛血清白蛋白(BSA)為例,首先下載BSA的數據庫信息

首先sp表示,Swiss-Prot數據庫是注釋精煉的蛋白序列庫,它的所有序列都經過了科學家的查閱文獻核實(reviewed, manually annotated) 。
P02769是蛋白在uniprot上的ID號,即蛋白的身份證號。
ALBU_BOVIN是蛋白在uniprot上的登錄名,跟P02769是一個作用。
Serum albumin是蛋白名稱,即蛋白的姓名啦。
OS表示Organism,也就是物種名稱,數據庫中的物種名稱一般為拉丁名稱,牛血清白蛋白Bostaurus當然是牛的拉丁。
GN表示gene name,即基因名稱。
PE表示ProteinExistence,即蛋白的可靠性,PE=1、2、3、4、5分別對應如下,可以看出數字越小可靠性越高:
1. Experimental evidence at protein level
2. Experimental evidence at tranlevel
3. Protein inferred from homology
4. Protein predicted
5. Protein uncertain
SV表示SequenceVersion,即序列版本,即蛋白的身份證第二代,第三代……
這里需要指出的是,除了sp,有時還會出現下圖的情況。

唯一不同的只有Tr,這里Tr,TrEMBL數據庫全稱“Translation of EMBL”,是從EMBL中的cDNA序列翻譯得到的,其中TrEMBL收錄的是未經人工注釋的編碼DNA序列翻譯數據。(unreviewed, automatically annotated),不難看出,相比之下,sp數據庫更可靠。
登陸uniprot官方網站(http://www.uniprot.org/,見截圖)即可看到,目前uniprot網站收錄的sp數據庫有554241條蛋白條目,tr數據庫有84827567條。當然這一數據每天都有更新。更多數據庫參考信息相關鏈接:

