用TCGA數據庫分析癌症和癌旁組織的表達差異


上周收到一條求助信息:“如何用TCGA數據庫分析LINC00152在卵巢癌與正常組織的的表達差異?”

所以以這個題目為記錄分析過程如下:

一、下載數據

  a)進入網站https://cancergenome.nih.gov/   網頁截圖如下:

  b)進入數據下載 Launch Data Portal   ,截圖如下:

  進入數據下載接口后,有Projects Exploration Analysis Repository 四個欄目,我們數據下載可進入Repository菜單欄,截圖如下:

  網頁分成左右兩邊,左邊主要是提供用戶數據選擇和過濾的窗口,右邊是根據用戶的選擇后顯示及其統計結果。左邊選擇分為 Cases  和 Files兩大類。

  根據我們的研究,目的是要看LINC RNA在卵巢癌和正常組織的表達差異,所以我們在左邊的欄目的Cases下選擇Ovary,在Files 下選擇 RNA-seq ,這些選項選擇完畢,會出現上面的那張截圖

 c)下載路徑文件

 選好文件后,如上圖將文件加入購物車,截圖如下:

然后點擊右上角的Cart,出現如下截圖:

點擊Sample sheet之后,包含所需文件目錄的.tsv文件gdc_sample_sheet.2018-05-22.tsv就可以下載了,放到對應的目錄下。

用NotePad打開文件如下:

 

d) 在linux下批量下載文件

  將該文件放在linux的   /home/zdwu/rnaseq/11_source_data  目錄下,並在該目錄下批量下載數據,代碼如下:

cat gdc_sample_sheet.2018-05-22.tsv | while read line
do
echo https://portal.gdc.cancer.gov/files/${line:0:(36-0)}
wget -c https://gdc-api.nci.nih.gov/data/${line:0:(36-0)} -O ${line:167:(184-167)}'.htseq.counts.gz'
done

下載完畢后查看文件如下:

 

用如下命令,確認文件個數是否完整,完整后數據備用。

ls A-* | wc -l

 

二、數據分析

   a)數據解壓

     用命令行 解壓,解壓后得到可讀的數據。

zdwu@ubuntu://home/zdwu/rnaseq/11_source_data/ovary$ gunzip *counts

     b)找出Linc00152的表達量

     由於從TCGA下載的數據里的基因明都是ensemble ID,所以需要 從NCBI 查找Linc00152對應的 ensemble ID,找出的結果是Ensembl:ENSG00000222041

  

  注意:此處只有一個基因,所用手動從NCBI 找出ensemble ID是簡單的,但是如果看的是大量的基因,那這將會非常通過,這時就需要通過ID轉換文件來編程轉換。

  基因ID 轉換文件的下載地址 :ftp://ftp.ncbi.nlm.nih.gov/gene/DATA/   ,里面有gene2ensemble.gz   gene2accession.gz    gene2go.gz 等文件可以下載,根據這些文件,寫個小腳本就可以批量轉換了。

  c)整合多樣本的LINC00152基因表達counts

zdwu@ubuntu://home/zdwu/rnaseq/11_source_data/ovary$ for file in *counts
> do
> echo ${file:0:12} >> ovary_linc00152.txt
> echo ${file:13:(16-13)} >> ovary_linc00152.csv
> cat ${file} | grep "ENSG00000222041" >> ovary_linc00152.csv
> done

最后將得到的ovary_linc00152.csv 文件拷貝至於windows電腦,截圖如下:

這是沒有normalized的數據,如果需要不同樣本之間比較的話進行normalized,再簡單的統計不同組之間樣本的 t-test。分析完畢。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM