芯片數據分析步驟1 芯片數據下載-GEO從GEO數據庫下載數據的方法


從GEO數據庫下載數據的方法

1、在GEO DATASETS中輸入關鍵詞,選擇符合的GSE,在ftp中進行 手動下載

2、找到符合的GSE,在R中使用 GEOquery 包進行下載

GEO數據庫的數據種類

1、Platforms 平台

包含有芯片的探針信息,如cDNAs,寡核苷酸,ORFs,抗體。

以GPLxxx編號。

一個platform可以包含不同人上傳的不同sample。

不同platform的數據需要分開處理。

2、Samples 樣品

一個以獨立方式處理的樣品。

以GSMxxx編號。

一個sample只能包含於一個platform,一個sample可以包含於多個series。

3、Series 系列

一個Series就是一個study。

以GSExxx編號。

一個系列一定包含多個sample,可能包含多個platform。

不同platform的數據需要分開處理。

4、Datasets 數據集

數據集包含有被summiter處理過的數據,可以使用GEO數據庫自帶的tools進行分析,如differentiated gene expression,
cluster, heatmap。

以GDSxxx編號。

一個dataset的sample來自同一個platform,因此彼此間具有可比性。

范例

  • gds858 <- getGEO(‘GDS858’, destdir=“.”) ##根據GDS號來下載數據,下載soft文件

  • gpl96 <- getGEO(‘GPL96’, destdir=“.”) ##根據GPL號下載的是芯片設計的信息!

  • gse1009 <- getGEO(‘GSE1009’, destdir=“.”)##根據GSE號下載數據,下載_series_matrix.txt.gz

下載GDS返回的對象

gds858返回的對象很復雜

用Table(gds858)可以得到表達矩陣!

用Meta(gds858)可以得到描述信息

    names(Meta(gds858))
    Table(gds858)[1:5,1:5]

可以用 GDS2eSet 函數把它轉變為 expressionset

下載GSE返回的對象

GPLList 函數查看GPL信息

處理函數有: geneNames/sampleNames/pData/exprs

用命令

    gsmplatforms <- lapply(GSMList(gse), function(x) {Meta(x)$platform_id})
    head(gsmplatforms)

查看GSM對應的GPL信息

用命令

    gsmlist = Filter(function(gsm) { Meta(gsm)$platform_id=='GPLXX'},GSMList(gse))

提取GPLXX對應的樣本(有些實驗涉及到不同平台的樣品)。

下載GPL返回的對象

根據GPL號下載返回的對象跟GDS一樣,也是用Table/Meta處理!

還可以下載cel原始文件!

    tmp=getGEOSuppFiles(GSE1009)
    if (is.null(tmp)) {
      warning("Supplementary data files not provided!\nyou should check this GEO ID in NCBI\n")
    }

參考:

1、 [ 用GEOquery從GEO數據庫下載數據 ](http://www.bio-info-
trainee.com/bioconductor_China/software/GEOquery.html)

2、 Using the GEOquery Package

3、 GEOquery Reference Manual

在這里插入圖片描述


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM