一、nt和nr數據庫
nt庫和nr庫大家都比較熟悉,一個核酸庫,一個蛋白庫,兩者既可以通過NCBI進行在線BLAST,也可以在ftp://ftp.ncbi.nih.gov/blast/db地址中將如下文件下載后,進行
本地BLAST。在此還是簡單說明一下在線比對方法:
打開https://blast.ncbi.nlm.nih.gov/Blast.cgi,根據下表選擇合適的程序(圖表來自網絡)
然后可以直接進行序列與nt和nr庫的比對,如果還有疑問,可以查看幫助文檔:
ftp://ftp.ncbi.nlm.nih.gov/pub/factsheets/HowTo_BLASTGuide.pdf。
對於這兩個數據庫不再贅言,如果是大批量比對,我們歐易可以提供優質的服務。
二、Swissprot數據庫
Swissprot(http://www.uniprot.org/uniprot/?query=*&fil=reviewed%3Ayes),最新更新版本包含554515條蛋白序列,正如uniptort所說:“It is a high quality annotated and non-redundant protein sequence database, which brings together experimental results, computed features and scientific conclusions.”這些序列都是經過驗證和注釋的蛋白序列,可信度較高。
可以看到,在這個網址的左側列出了常見物種,如果你要尋找某一特定物種的蛋白序列信息,可以在B處輸入直接查找,也可以在A中輸入查找。在工作中經常遇到用uniprot蛋白作為蛋白庫來進行分析的itraq項目(對於轉錄組來說,這屬於拓展知識),對於某些關注的蛋白,如果想要了解該蛋白的具體注釋信息,那么可以通過如下方法來實現:
登錄http://www.uniprot.org/uploadlists/或者點擊網站首頁
會跳轉到如下網頁
在A處輸入UniprotKB AC或者ID號,或者直接在B處導入列表(每行一個),按照默認即可進行下一步。當然有的老師會說什么是Uniprot KB或者ID號,一個完整的swissprot ID是這樣的
一般來說,sp代表該蛋白來自swissprot,||中間部分為ID號,也成為Entry號,|后面的一般格式是gene name縮寫加上“_”跟物種名。那么使用ID號或者|后面部分都可以搜索到對應信息的。順便一提,點開
可以看到,它支持很多輸入格式,對於最常用的Gene name也是可以的,不過ID號是唯一的,可以精准搜索蛋白信息。
當然點擊右邊
也可以指定比對到的數據庫,可以根據需要查詢相關注釋信息。
點擊Go之后會彈出如下界面:
當你勾選一條序列的時候,1的BLAST會點亮,你可以將勾選的序列和uniprot的序列進行BLAST比對。當你勾選多條序列的時候,2的Align會點亮,你可以進行勾選序列之間的alignment,3是下載所有信息或者勾選信息,4是將勾選的蛋白(會相應的在左下角加上籃子標志如7處顯示)加入basket(籃子),加入的蛋白會在右上角6處顯示,點擊6可以進行針對收藏的序列進行一些指定分析,在此不再贅述。
需要着重說的是5Columns選項,點擊它,你便發現了新天地。
理論上說,你能想到的常用注釋數據庫信息,都可以在其中找到,包括GO,kegg,序列信息,蛋白名,基因名,亞細胞定位,pfam信息等。因為這里包含的信息極為龐雜,所以沒有一一列舉,只要勾選其中的選項,然后點擊右上角的save,便可以將這些信息收入囊中。
在一般轉錄組分析中,swissprot的注釋率是僅低於NR的,依靠swissprot的注釋,其實可以擴展得到很多其他相關注釋,例如GO,KEGG,pfam等。
三、KEGG數據庫
KEGG數據庫應該也是大家比較熟悉的,在此也不做過多贅述,可以參考
http://muchong.com/html/201009/2325769.html 來更加深入的了解KEGG數據庫,在這里,僅針對老師一些序列的kegg注釋為老師提供一個在線提交的方法:
1. 打開網址 http://www.genome.jp/kaas-bin/kaas_main 進行如下操作:
2. 待任務上傳完成,郵箱會收到一份郵件告知任務被受理:
3. 按照郵件提示操作即可,完成后會收到一封郵件。
4. 打開郵件中鏈接,點擊對應任務的 html:
5.選擇 brite hierarchies:
6. 選擇 KEGG Orthology(KO)
7. 選擇Download htext將文件下載到本地,文件名保持默認(q00001.keg)
這樣就會得到序列的KEGG注釋結果了,一般來說,對於1萬條左右序列,1-6小時即可完成。
四、KOG數據庫
“KOG”是Clusters of orthologous groups for eukaryotic complete genomes(真核生物蛋白相鄰類的聚簇)的縮寫。構成每個KOG的蛋白都是被假定為來自於一個祖先蛋白,並且因此或者是orthologs或者是paralogs。Orthologs是指來自於不同物種的由垂直家系(物種形成)進化而來的蛋白,並且典型的保留與原始蛋白有相同的功能。Paralogs是那些在一定物種中的來源於基因復制的蛋白,可能會進化出新的與原來有關的功能。數據庫鏈接:ftp://ftp.ncbi.nih.gov/pub/COG/KOG/kyva。
該數據庫,目前沒有在線提交的注釋方法,但是如果你仔細看上文的話,會發現其實可以通過swissprot來獲得KOG注釋信息,沒有發現的話,請回頭再仔細看看。
五、string數據庫
STRING數據庫(https://string-db.org/)是一個搜尋已知蛋白質之間和預測蛋白質之間相互作用關系的系統。這種作用關系既可以是蛋白質之間的物理作用,也可以是間接的功能相關性。它基於染色體臨近、系統進化譜、基因融合和基因芯片數據等生物學信息來計算基因或者蛋白的共表達。
最新的string數據庫為10.5版本,包含2031個物種9'643'763種蛋白1'380'838'440種相互作用關系。您可以通過下載收錄物種蛋白序列的方法進行本地blast比對,點擊download
選定物種后下載作用關系文件*.protein.links.v10.5.txt.gz 和*.protein.sequences.v10.5.fa.gz
文件即可。
對於在線比對,string使用起來還是非常方便的,如下圖
可以使用基因名或者蛋白序列進行查詢,蛋白序列查詢方法我們在此不多做說明,基因名查詢的方法對我們來更為常用,以人為例,輸入gene symbol(一行一個),如下圖,點擊search
然后會彈出如下網頁
String網站會將輸入的gene name與數據庫中該物種的基因進行匹配,輸出匹配最好的一條畫鈎,一般來說,在這里可以檢查一下是否匹配正確,絕大多數情況下,是沒有問題的,有些時候輸入的基因名和收錄的基因名可能稍有出入,實際輸出的時候,是以sring網站為准。確認無誤后,點擊CONTINUE(輸入越多,這一步越慢,后面的圖和表也越復雜,因此不建議輸入過多基因)。
在彈出的如下網頁中,上半部分是蛋白互作圖,中間是一些設置參數等,如下圖:
對於上圖的互作關系圖片,可以直接使用,也可以導出數據之后用Cytoscape自己繪圖。
是以不同的方法去查看結果,一般默認是Network,對於其他感興趣的可以點擊查看一下。
是一些說明,包括圖標說明,線條說明以及輸入說明。
是進行一些設置,比如用互作關系或者可信度展示線條,圖片保存格式(png或者svg矢量圖),以及最低可信度等,如圖所示使用0.4會顯示所有打分值在0.4之上的nodes,最高可以設置為0.9以減少低可信度nodes,也可以是圖片使加簡單美觀。
可以對這些輸入基因進行GO和KEGG注釋及富集,並輸出結果。
可以將結果文件輸出,包括圖片和表格信息,如前面所說如果需要自己用 Cytoscape繪圖的話可以點擊TSV輸出格式,得到互作用excel表格。
是對輸入進行聚類,其實如果用Cytoscape也是可以進行聚類的,使用的是MCODE,可以查看小編上一篇文章詳細了解。如下圖所示,是對TSV輸出結果進行繪圖並聚類的結果,不同的cluster用不同的顏色顯示。
關於string還有一個文件想再說明一下,就是download中的species.v10.5.txt 文件,該文件是以taxon_id進行排序的,大家可以在其中查找相應物種進行檢索,到這里,關於string的介紹就結束了。
六、AnimalTFDB
AnimalTFDB(http://www.bioguo.org/AnimalTFDB/)是一個動物轉錄因子數據庫,該數據庫收錄了大部分動物模式物種,包括人,豬,蟾蜍、果蠅等50個物種的71個轉錄因子家族,他們的注釋信息是基於ensemble 6.0 (ftp://ftp.ensembl.org/pub/release-60/gtf/),所以也是可以下載數據進行本地blast比對的。該數據庫支持多種輸入格式的數據檢索,如下圖
七、PlnTFDB
PlnTFDB(http://plntfdb.bio.uni-potsdam.de/v3.0/)是一個植物轉錄因子數據庫,該數據庫收錄了大部分植物模式物種,包括擬南芥,水稻等20個物種的84個轉錄因子家族,包含28193 protein models, 26184 distinct protein sequences。它支持在線blast進行比對,也可以將數據下載后進行本地blast。
八、PRGDB
PRGDB(http://prgdb.crg.eu/wiki/Resistance_genes)是一個植物抗性基因數據庫,它也支持本地和在線BLAST比對,關於它能介紹的不多,在此簡單提一下。