GO功能注釋-簡單快速


參考:https://www.cnblogs.com/xiaojikuaipao/p/7190779.html   https://blog.csdn.net/ygyxl/article/details/79742751

GO 注釋主要有兩種方法:序列相似性比對(BLAST)和結構域相似性比對(InterProScan)

1. 將基因序列與 swiss-prot 蛋白質數據庫進行 BLAST 比對,得到如下結果:

       c00_g1_i1       RNF13_MOUSE     52.00   50      23      1       17      166     240     288     2e-11   65.5

       c01_g1_i1       RS25_NEUCR      78.72   94      20      0       375     94      1       94      1e-32   116

     其中,第二列為 swiss-prot 蛋白質數據庫序列的 ID(UniProtKB ID)。

2. 注釋

   從 ftp://ftp.pir.georgetown.edu/databases/idmapping 下載 idmapping.tb.gz,該文件共有 22 列(tab 鍵分割),如:

   Q6GZX4    001R_FRG3G  2947773  YP_031579.1  81941549; 49237298  PF04947  GO:0006355; GO:0046782; GO:0006351  UniRef100_Q6GZX4  UniRef90_Q6GZX4 UniRef50_Q6GZX4 UPI00003B0FD4   654924   15165820    AY548484    AAT09660.1

   UniProtKB accession UniProtKB ID EntrezGene RefSeq NCBI GI number PDB Pfam GO PIRSF IPI UniRef100 UniRef90 UniRef50 UniParc PIR-PSD accession NCBI taxonomy MIM UniGene Ensembl PubMed ID EMBL/GenBank/DDBJ EMBL protein_id

  根據文件 idmapping.tb.gz,將 blast 的結果,通過 UniProtKB ID,將第八列的 GO 號注釋到對應的基因上,

   python UniProt2GO_annotate.py idmapping.tb.gz blastout outputfile

   結果如下:

c93619_g2_i1 GO:0005506,GO:0016705,GO:0016021,GO:0004497,GO:0020037

c93619_g2_i3 GO:0009733,GO:0020037,GO:0044550,GO:0016021,GO:0016020,GO:0016711,GO:0009813,GO:0005789,GO:0005506

c70056_g1_i1 GO:0005737,GO:0019722,GO:0071889,GO:0005829,GO:0001077,GO:0006357,GO:0097720,GO:0000978,GO:0046872,GO:0005634,GO:0006874

c93748_g1_i1 GO:0006729,GO:0008124


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM