用TCGA數據庫分析癌症和癌旁組織的表達差異

本文轉載自查看原文 2018-05-22 16:01 17700 生信項目——RNA-seq

上周收到一條求助信息：“如何用TCGA數據庫分析LINC00152在卵巢癌與正常組織的的表達差異？”

所以以這個題目為記錄分析過程如下：

一、下載數據

a）進入網站https://cancergenome.nih.gov/ 網頁截圖如下：

b）進入數據下載 Launch Data Portal ，截圖如下：

進入數據下載接口后，有Projects Exploration Analysis Repository 四個欄目，我們數據下載可進入Repository菜單欄，截圖如下：

網頁分成左右兩邊，左邊主要是提供用戶數據選擇和過濾的窗口，右邊是根據用戶的選擇后顯示及其統計結果。左邊選擇分為 Cases 和 Files兩大類。

根據我們的研究，目的是要看LINC RNA在卵巢癌和正常組織的表達差異，所以我們在左邊的欄目的Cases下選擇Ovary，在Files 下選擇 RNA-seq ，這些選項選擇完畢，會出現上面的那張截圖

c）下載路徑文件

選好文件后，如上圖將文件加入購物車，截圖如下：

然后點擊右上角的Cart，出現如下截圖：

點擊Sample sheet之后，包含所需文件目錄的.tsv文件gdc_sample_sheet.2018-05-22.tsv就可以下載了，放到對應的目錄下。

用NotePad打開文件如下：

d）在linux下批量下載文件

將該文件放在linux的 /home/zdwu/rnaseq/11_source_data 目錄下，並在該目錄下批量下載數據，代碼如下：

cat gdc_sample_sheet.2018-05-22.tsv | while read line
do
echo https://portal.gdc.cancer.gov/files/${line:0:(36-0)}
wget -c https://gdc-api.nci.nih.gov/data/${line:0:(36-0)} -O ${line:167:(184-167)}'.htseq.counts.gz'
done

下載完畢后查看文件如下：

用如下命令，確認文件個數是否完整，完整后數據備用。

ls A-* | wc -l

二、數據分析

a）數據解壓

用命令行解壓，解壓后得到可讀的數據。

zdwu@ubuntu://home/zdwu/rnaseq/11_source_data/ovary$ gunzip *counts

b）找出Linc00152的表達量

由於從TCGA下載的數據里的基因明都是ensemble ID，所以需要從NCBI 查找Linc00152對應的 ensemble ID，找出的結果是Ensembl:ENSG00000222041

注意：此處只有一個基因，所用手動從NCBI 找出ensemble ID是簡單的，但是如果看的是大量的基因，那這將會非常通過，這時就需要通過ID轉換文件來編程轉換。

基因ID 轉換文件的下載地址：ftp://ftp.ncbi.nlm.nih.gov/gene/DATA/ ，里面有gene2ensemble.gz gene2accession.gz gene2go.gz 等文件可以下載，根據這些文件，寫個小腳本就可以批量轉換了。

c）整合多樣本的LINC00152基因表達counts

zdwu@ubuntu://home/zdwu/rnaseq/11_source_data/ovary$ for file in *counts
> do
> echo ${file:0:12} >> ovary_linc00152.txt
> echo ${file:13:(16-13)} >> ovary_linc00152.csv
> cat ${file} | grep "ENSG00000222041" >> ovary_linc00152.csv
> done

最后將得到的ovary_linc00152.csv 文件拷貝至於windows電腦，截圖如下:

這是沒有normalized的數據，如果需要不同樣本之間比較的話進行normalized，再簡單的統計不同組之間樣本的 t-test。分析完畢。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 用TCGA收集的mRNA表達數據作差異表達 TCGA系列--TCGA可視化數據庫GEPIA TCGA一些數據庫使用GEO數據庫來篩選差異表達基因，KOBAS進行KEGG注釋分析 FusionCancer-人類癌症相關的融合基因的數據庫從TCGA數據庫官網下載數據 TCGA癌症縮寫、癌症中英文對照 TCGA系列--miRNA數據分析差異表達分析之FDR MySQL與Oracle數據庫差異對比