從GEO數據庫下載數據的方法
1、在GEO DATASETS中輸入關鍵詞,選擇符合的GSE,在ftp中進行 手動下載
2、找到符合的GSE,在R中使用 GEOquery 包進行下載
GEO數據庫的數據種類
1、Platforms 平台
包含有芯片的探針信息,如cDNAs,寡核苷酸,ORFs,抗體。
以GPLxxx編號。
一個platform可以包含不同人上傳的不同sample。
不同platform的數據需要分開處理。
2、Samples 樣品
一個以獨立方式處理的樣品。
以GSMxxx編號。
一個sample只能包含於一個platform,一個sample可以包含於多個series。
3、Series 系列
一個Series就是一個study。
以GSExxx編號。
一個系列一定包含多個sample,可能包含多個platform。
不同platform的數據需要分開處理。
4、Datasets 數據集
數據集包含有被summiter處理過的數據,可以使用GEO數據庫自帶的tools進行分析,如differentiated gene expression,
cluster, heatmap。
以GDSxxx編號。
一個dataset的sample來自同一個platform,因此彼此間具有可比性。
范例
-
gds858 <- getGEO(‘GDS858’, destdir=“.”) ##根據GDS號來下載數據,下載soft文件
-
gpl96 <- getGEO(‘GPL96’, destdir=“.”) ##根據GPL號下載的是芯片設計的信息!
-
gse1009 <- getGEO(‘GSE1009’, destdir=“.”)##根據GSE號下載數據,下載_series_matrix.txt.gz
下載GDS返回的對象
gds858返回的對象很復雜
用Table(gds858)可以得到表達矩陣!
用Meta(gds858)可以得到描述信息
names(Meta(gds858))
Table(gds858)[1:5,1:5]
可以用 GDS2eSet 函數把它轉變為 expressionset
下載GSE返回的對象
用 GPLList 函數查看GPL信息
處理函數有: geneNames/sampleNames/pData/exprs
用命令
gsmplatforms <- lapply(GSMList(gse), function(x) {Meta(x)$platform_id})
head(gsmplatforms)
查看GSM對應的GPL信息
用命令
gsmlist = Filter(function(gsm) { Meta(gsm)$platform_id=='GPLXX'},GSMList(gse))
提取GPLXX對應的樣本(有些實驗涉及到不同平台的樣品)。
下載GPL返回的對象
根據GPL號下載返回的對象跟GDS一樣,也是用Table/Meta處理!
還可以下載cel原始文件!
tmp=getGEOSuppFiles(GSE1009)
if (is.null(tmp)) {
warning("Supplementary data files not provided!\nyou should check this GEO ID in NCBI\n")
}
參考:
1、 [ 用GEOquery從GEO數據庫下載數據 ](http://www.bio-info-
trainee.com/bioconductor_China/software/GEOquery.html)