基於二代測序的RNA癌症研究方法
-
基於DNA層面的癌症研究:一本字典
-
基於RNA的癌症研究:從字典種挑取寫一篇日記
-
RNA特點:
時空特異性:需要控制變量對照組
協同作用,形式多樣:表達量高低/可變剪接/單鹼基突變/融合基因,mRNA/lncRNA/miRNA/ceRNA...
可控可逆,“溫和”調節:治療前后,短期發展進程 -
在設置對照組應盡量保證無環境或其他因素的干擾:如取同患者腫瘤與其癌旁組織;葯物處理時選擇同窩小鼠
-
重復性設置,排除隨機波動
-
基因定量:FPKM/RPKM/TPM
定量方法
比對到參考轉錄組:RSEM,eXpress
比對到參考基因組:cutdiff/cutffquant,HTseq
不需比對(mapping free):Sailfish,Kallisto,速度快 -
差異表達:foldchange,pvalue
DESeq2等
不夠生物重復樣本,NOISeq
一般數目控制在百級別 -
功能數據庫:GO/KEGG(適合genelist)
-
疾病相關數據庫:OMIM/PharmGKB/GeneCards/COSMIC(適合單基因檢索)
-
可變剪接:轉錄后調控形式(一個基因轉錄后選擇不同外顯子區域進行連接組合,形成不同的轉錄本亞型,並翻譯成蛋白),哺乳動物尤為常見,人95%的多外顯子基因都可能存在
可變剪接影響:蛋白功能/活性/作用位置
癌症研究中,可變剪接結果不易理解和驗證,不建議做結構研究(適合三代),因此優先級靠后 -
可變剪接研究方法
基於轉錄本亞型定量:同一基因不同可變剪接亞型的比例,Cutffdiff/rSeqDiff/RSEM
基於單個可變剪接事件(更常見,研究是否發生可變剪接現象):外顯子跳躍,內含子保留等單個事件,rMATS/DiffSplice -
用轉錄組數據call SNP
優勢:更容易發現與功能相關的SNP
挑戰:基因表達豐度不同,覆蓋度極不均勻;可變剪接的存在給外顯子邊緣SNP鑒定帶來困難;RNA編輯干擾SNP鑒定
流程:clean reads——HISAT比對——GATK call SNP——SNP過濾 -
融合基因
癌症中特異的存在,因基因組上的倒位、易位、插入、缺失等大型結構變異造成。原本在染色體上距離較遠,或者不在同一染色體上的基因距離接近,並一同轉錄形成融合轉錄本的現象。
變異罕見,一般只出現在癌症/腫瘤組織中,是一種理想的biomarker。
癌症中的融合基因:BCR-Abl(22chr——9Chr),Imatinib。白血病患者biomarker和葯靶
融合基因的鑒定結果(少且易讀):哪些基因進行了融合,融合位置,reads支持數。易驗證(設計PCR引物測序)
基於長讀長測序的轉錄本結構研究
- 轉錄本長度一般1k-5k,二代平台(100-150bp)覆蓋不了整條。基於短讀長RNA-seq組裝產生大量的嵌合體
- PacBIo讀長10-40k,更利於研究可變剪接和轉錄本結構變異
- 基於長讀長的融合基因研究
二代測序只能確定有融合事件發生,獲得融合位置一小段區域,三代可獲取完整融合轉錄本序列和融合亞型
單細胞RNA-seq的癌症應用
- 常規RNA:組織——組織勻漿,RNA提取(平均化異質性)——測序
- 低通量,高深度單細胞技術:組織——挑選單細胞(流式細胞儀等)——單管單細胞(SMART-seq2),有偏的人為挑選,每個細胞單獨建庫,高深度,每個細胞能鑒定1-1.2萬基因
- 高通量,低深度單細胞技術:組織——海量單細胞文庫(基於微流控系統,10X Genomics/MGI DNBelab C4/BioRad),一次捕獲1000-10000個細胞,每個細胞鑒定300-3000個基因,無偏
- 單管單細胞適合個體研究,針對同質性群體;高通量單細胞適合群體研究,針對異質性群體
- 高通量單細胞:細胞分群——marker gene(只在這類細胞中表達/高表達)
- 空間單細胞轉錄組:多一維位置信息,如針對腫瘤位置相關的研究,皮膚癌/實體瘤,尚不成熟
腫瘤基因組臨床應用專題:
【1】 腫瘤醫學研究前言進展
【2】腫瘤基因檢測相關技術原理
【3】腫瘤基因組數據分析方法概述
【4】腫瘤轉錄組測序分析流程及相關軟件
【5】腫瘤DNA甲基化數據分析原理及流程
【6】腫瘤胚系突變遺傳分析及數據庫使用
【7】基於NGS檢測體系變異解讀和數據庫介紹
【8】腫瘤臨床遺傳咨詢及案例分析