TCGA | CCLE | 數據挖掘基本教程 | GTEx


 

2023年05月02日

還好沒有走上純生信的灌水之路,要扎扎實實的搞干濕結合,只有問題問好了、實驗設計好了、數據測好了,生信才能迸發出高能的威力!

TCGA數據下載 基本的TPM表達數據 

歷史代碼:http://localhost:17435/notebooks/data_center/DB/DB.ipynb

 


 

沒辦法了,生信博士畢業了,很尷尬,方法做不來,實驗做不了,自己最能把握的就是公共數據挖掘。

灌水也是沒辦法的,新人要生存啊,前3年要玩命干,灌水也能快速熟悉領域基本情況,當然也要有能拿得出手的paper,NAR、GB、NC等。

 

生信公共數據挖掘的幾大方向:

  • TCGA
  • GEO
  • 單細胞
  • UKBB
  • 文獻挖掘 - 基因互作
  • 數據庫構建,灌水NAR

 

有好多人開始賣鏟子了,出了TCGA數據挖掘的系列課程,基本都是收費的,咱們都是生信專家了,怎么可能花錢去買,咱水平基本看標題就能給你寫出一篇新的,還有代碼。

幾個可供參考的課程【看看提綱即可】:

 

微信公眾號有很多文章套路講解實例,這個最容易學習和模仿。

 


 

 

這里只列出課程整體的邏輯框架,具體細節再單獨開篇。

 

TCGA數據分析全攻略(第二期) - 生信控

【這個教程確實很low,相關性都能將一節課,我一行代碼搞定】

Rstudio

TCGA RNA表達數據下載與整理

RNA差異表達分析

ROC曲線

TCGA臨床數據下載與整理

基因表達與臨床因素相關性

臨床分組表達量分析

生存分析

COX分析

列線圖模型

基因表達拷貝數甲基化

成熟體miRNA表達數據下載與整理

miRNA差異表達分析

靶基因分析

基因與miRNA表達相關性分析

miRNA生存分析

GSEA分析

cBioPortal分析復現

 

 

TCGA數據挖掘5天授課(2021)

11-15-1 TCGA介紹和R語言基礎復習

00:01:24 - TCGA 流程
00:18:00 - 新建Rmd
00:20:26 - 介紹Rmd文件渲染/導出
00:25:10 - 代碼塊 option
00:26:22 - 運行代碼塊
00:27:41 - markdown基本語法
00:28:02 - 導出的 html 文件打開以及修改
00:32:38 - 復習R語言


11-15-2 TCGA-數據下載與整理

00:00:42 - 差異分析的起點 counts reads
00:04:21 - 拿不到counts
00:07:49 - TCGA癌症類型
00:09:46 - RNA-seq樣本數量 腫瘤遠遠多於正常
00:12:00 - TCGA+GTEX的樣本數量
00:15:00 - Xena
00:15:45 -TCGA差異分析的輸入數據整理
00:19:00 - Xena演示
00:21:44 - 表達矩陣
00:23:44 - 為什么臨床數據和RNA-seq數據數量不一樣多
00:24:59 - 腳本組織方式演示
00:30:32 - HTML展示TCGA數據下載和整理


11-15-3 TCGA-其他來源的數據整理

00:02:13 - gdc - client數據下載步驟
00:07:59 - GDCRNATools 數據下載步驟
00:14:20 - 其他數據來源GEO
00:29:51 - 三大R包差異分析
00:32:57 - 差異分析
00:40:30 - 兩個函數


11-16-1 TCGA-轉錄組數據差異分析及其可視化

00:01:30 - 總結上一節的流程
00:04:10 - 三大R包差異分析
00:06:00 - 三大R包差異分析HTML講解DESeq2
00:22:28 - edgeR
00:25:00 - limma
00:28:06 - 驗證差異基因是否正確
00:51:16 - patchwork拼圖
00:52:24 - 分組聚類熱圖 組內聚類


11-16-2 TCGA生存分析介紹和文獻解讀

00:01:30 - 生存分析
00:04:36 - Kaplan-Meier生存分析
00:08:06 - meta--臨床信息表格
00:13:48 - Cox回歸
00:21:24 - 數據挖掘文章解讀(GBM)
00:24:24 - 數據挖掘文章解讀(OSCC)
00:35:52 - 數據挖掘文章解讀(肺癌)
00:45:09 - 數據挖掘文章解讀(黑色素瘤)


11-16-3 TCGA-文獻解讀和生存分析數據准備

00:00:51 - 膠質瘤 內質網應激相關基因
00:23:48 -肺癌 免疫浸潤
00:25:33 -生存分析前的數據處理
00:46:50 - 答疑


11-18-1 TCGA-KMplot和對基因批量生存計算

00:01:06 - 本節課概覽
00:03:50 - 生存分析
00:07:15 - KM-plot
00:11:50 - 連續變量離散化
00:23:37 - long-rank test
00:30:31 - 批量單因素cox
00:38:33 - 總結
00:40:18 - lasso回歸


11-18-2 TCGA-lasso回歸和多因素cox

00:01:42 - lasso模型預測和評估
00:06:10 - ROC曲線
00:12:00 - 切割數據構建模型並預測
00:17:47 - 切割數據
00:22:07 - 構建模型
00:22:43 - 模型預測
00:26:50 - 多因素cox
00:34:53 - 構建 coxph模型
00:39:15 - 逐步回歸法
00:45:24 - 模型可視化--森林圖
00:50:25 - 模型預測
00:54:29 - 切割數據驗證模型


11-18-3 TCGA-其他模型和可視化

00:00:40 - 本節課概覽
00:04:16 - 隨機森林
00:09:25 - svm
00:14:28 - timeROC
00:21:06 - 三圖聯動三個圖的含義
00:24:08 - 划分高低風險
00:25:50 - 風險因子三圖聯動
00:41:03 - 答疑


11-19-1 TCGA-文章圖表復現-1

00:03:09 - 肺癌免疫浸潤 文章解讀
00:04:00 - 差異分析 富集分析 hub基因
00:15:50 - Hub基因的驗證
00:20:28 - 生存分析
00:21:09 - 免疫分析
00:32:54 - Lasso和cox回歸構建
00:46:02 - 模型可視化與GESA
00:48:54 - Riskscore和免疫浸潤的關系
00:58:11 - tinyarray 代碼簡化操作


11-19-2 TCGA圖表復現-2

00:00:30 - tinyarray 函數解釋
00:03:38 - 本節課概覽
00:05:02 - 文獻復現-
00:05:02 - 下載數據
00:09:00 - 芯片表達矩陣行名轉換
00:16:00 - 數據合並
00:19:35 - 批次效應處理
00:23:56 - 差異分析
00:25:40 - goplot富集分析與PPI網絡
00:36:22 - hub基因的各種可視化


11-19-3 TCGA-文章圖表復現-3

00:00:05 - 相關性熱圖
00:00:05 - 突變頻譜圖
00:03:05 - 7基因生存分析
00:11:57 - 免疫分析
00:12:28 - ssGSEA
00:15:54 - estimate
00:20:40 - 相關性熱圖
00:26:30 - 相關性圖
00:28:12 - 模型構建
00:46:51 - 答疑


11-20-1 TCGA-突變數據分析

00:02:08 - riskstore與免疫
00:11:54 - 免疫數據驗證
00:33:34 - 突變數據
00:58:50 - 突變數據添加分組信息(超級難)
01:02:06 - 突變特征


11-20-2 單細胞-基礎流程和文獻講解

00:01:16 - 任意基因的分組比較
00:08:12 - 根據基因是否突變分組比較(跨組學)
00:14:51 - 兩個基因表達量相關性
00:18:39 - 單細胞入門
00:21:09 - 單細胞入門文獻 食管癌
00:34:17 - Seurat流程
00:39:59 - 讀取數據
00:44:40 - 質控
00:45:23 - 過濾
00:53:00 - 尋找高變基因


11-20-3 單細胞-基礎流程和文獻代碼復現

00:00:26 - 標准化 降維
00:03:51 - PCA
00:07:03 - UMAP
00:07:34 - 尋找marker基因
00:10:28 - 細胞類型注釋
00:11:44 - 文獻2 常規Seurat流程
00:16:40 - 文獻3
00:27:02 - 文獻2 代碼復現
00:34:12 - monocle 和scater


11-20-4 數據挖掘結束語

00:00:33 - 數據技術在更新,但是基礎基本不變
00:06:33 - 答疑

 

免費視頻課程:#新課預售!#【生信技能樹】TCGA腫瘤數據庫知識圖譜

配套文字版:jmzeng1314/tcga_example

公眾號上有#TCGA系列文章

 

其他資源:

 

 

待續~

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM