上周收到一條求助信息:“如何用TCGA數據庫分析LINC00152在卵巢癌與正常組織的的表達差異?”
所以以這個題目為記錄分析過程如下:
一、下載數據
a)進入網站https://cancergenome.nih.gov/ 網頁截圖如下:
b)進入數據下載 Launch Data Portal ,截圖如下:
進入數據下載接口后,有Projects Exploration Analysis Repository 四個欄目,我們數據下載可進入Repository菜單欄,截圖如下:
網頁分成左右兩邊,左邊主要是提供用戶數據選擇和過濾的窗口,右邊是根據用戶的選擇后顯示及其統計結果。左邊選擇分為 Cases 和 Files兩大類。
根據我們的研究,目的是要看LINC RNA在卵巢癌和正常組織的表達差異,所以我們在左邊的欄目的Cases下選擇Ovary,在Files 下選擇 RNA-seq ,這些選項選擇完畢,會出現上面的那張截圖
c)下載路徑文件
選好文件后,如上圖將文件加入購物車,截圖如下:
然后點擊右上角的Cart,出現如下截圖:
點擊Sample sheet之后,包含所需文件目錄的.tsv文件gdc_sample_sheet.2018-05-22.tsv就可以下載了,放到對應的目錄下。
用NotePad打開文件如下:
d) 在linux下批量下載文件
將該文件放在linux的 /home/zdwu/rnaseq/11_source_data 目錄下,並在該目錄下批量下載數據,代碼如下:
cat gdc_sample_sheet.2018-05-22.tsv | while read line do echo https://portal.gdc.cancer.gov/files/${line:0:(36-0)} wget -c https://gdc-api.nci.nih.gov/data/${line:0:(36-0)} -O ${line:167:(184-167)}'.htseq.counts.gz' done
下載完畢后查看文件如下:
用如下命令,確認文件個數是否完整,完整后數據備用。
ls A-* | wc -l
二、數據分析
a)數據解壓
用命令行 解壓,解壓后得到可讀的數據。
zdwu@ubuntu://home/zdwu/rnaseq/11_source_data/ovary$ gunzip *counts
b)找出Linc00152的表達量
由於從TCGA下載的數據里的基因明都是ensemble ID,所以需要 從NCBI 查找Linc00152對應的 ensemble ID,找出的結果是Ensembl:ENSG00000222041
注意:此處只有一個基因,所用手動從NCBI 找出ensemble ID是簡單的,但是如果看的是大量的基因,那這將會非常通過,這時就需要通過ID轉換文件來編程轉換。
基因ID 轉換文件的下載地址 :ftp://ftp.ncbi.nlm.nih.gov/gene/DATA/ ,里面有gene2ensemble.gz gene2accession.gz gene2go.gz 等文件可以下載,根據這些文件,寫個小腳本就可以批量轉換了。
c)整合多樣本的LINC00152基因表達counts
zdwu@ubuntu://home/zdwu/rnaseq/11_source_data/ovary$ for file in *counts > do > echo ${file:0:12} >> ovary_linc00152.txt > echo ${file:13:(16-13)} >> ovary_linc00152.csv > cat ${file} | grep "ENSG00000222041" >> ovary_linc00152.csv > done
最后將得到的ovary_linc00152.csv 文件拷貝至於windows電腦,截圖如下:
這是沒有normalized的數據,如果需要不同樣本之間比較的話進行normalized,再簡單的統計不同組之間樣本的 t-test。分析完畢。