腫瘤基礎
特點:
- 疾病,無線增殖
- 基因相關
- 細胞進化過程中發展異常,突變積累
概念:
- germline mutation: 生殖細胞突變
- somatic mutation: 體細胞突變,不可遺傳
- driver mutation 關鍵突變
- passenger mutation 無關緊要
二次打擊學說:
生殖細胞和體細胞突變雙重打擊引發,體細胞積累起關鍵。所以后續主要是以體細胞突變研究為主。
癌症基因組研究趨勢:
小樣本WES——大樣本multiomics——新技術(液體活檢、免疫療法、人工智能、微生物與腫瘤、腫瘤數據中心建設)
研究情況:
- 生殖道、呼吸、泌尿等系統
- WES和WGS為主,多組學是趨勢
腫瘤基因組基礎
突變特征:
- 點突變,Indel
- CNV (K——M),增加或減少(純合與雜合)
- SV
- Pathogen 病毒插入
功能划分:
- oncogene 癌基因
-- 功能性或激活性突變
-- 熱點突變 - tumor suppressor gene 抑癌基因
-- 截短型或失活性突變
-- 突變分散
基本數據分析:
- 成對研究,如癌症癌旁
- GATK
- 標准化數據——降維提取關鍵信息
腫瘤高級分析與整合:
內容:
- 超突變樣品檢測
- 顯著突變基因
- 新抗原預測
- 局部拷貝數變異
- 病毒整合分析
- 生殖系突變過濾
- 突變特征分析
- SV突變特征分析
- 突變鏈不對稱分析
- 突變網絡分析
- 腫瘤分子分型
- 腫瘤克隆進化與異質性分析
- 葯靶數據庫注釋
- TCGA數據庫分析
腫瘤高級分析模塊
四大模塊:
1. SNV和InDel
1. 1體細胞SNV和InDel
1)超突變樣本分類
常規腫瘤(regular-mutated mutations) VS 超突變腫瘤(hyper-mutated mutations)?
一般要將這兩種類型樣本區分來進行數據分析。
超突變樣本:
體細胞突變數目顯著高於常規腫瘤樣本。致癌機制一般不同於正常突變腫瘤。
超突變來源:
外源性誘變、內源性突變、錯配修復基因突變。
如何判斷超突變樣本:
- 突變數目,即腫瘤突變負荷(TMB)
- 樣本MSI狀態(MSI-status)
- DNA錯配修復基因是否發生突變(MMR mutation)
2)SMGs
SMGs(significantly mutated genes)顯著突變基因(驅動基因,腫瘤發生發展起關鍵作用)
SMGs鑒定軟件:
- MutSigCV:根據頻率
- MutSigfN:根據功能
- MutSigCL:根據位置,熱點突變
3)突變特征(mutational signatures)分析
腫瘤中體細胞突變大部分是由於暴露誘發,各種誘發因素在突變特征譜上表現不同。
目的:
為了描述腫瘤在形成過程中哪個突變特征代表的內界或外界環境因素起着至關重要的致癌作用。
總共96種突變特征類型:單鹼基替換6種類型(如下圖)* 前1bp的4種鹼基 * 后1bp的4種鹼基 = 64
將各種誘發因素相關的突變特征頻譜進行拆解。
軟件:
- SigProfiler:COSMIC開發,針對單鹼基、雙鹼基及小的InDel
signatures突變特征數據是不定期更新的。
4)突變鏈非對稱性分析
癌症基因組中復制和轉錄產生的鏈非對稱性普遍存在。
非對稱性突變原因:
- 岡崎片段長時間暴露
- DNA聚合酶矯正缺陷
- DNA錯配修復
軟件:
- AsymTools:輸入SNV/InDel——輸出Asymmetry signature
5)新抗原預測
MHC:
即主要組織相容性復合體,又稱主要組織相容性復合基因,是存在於大部分脊椎動物基因組中的一個基因家族,與免疫系統密切相關,其中人類的MHC糖蛋白又被稱為人類白血球抗原(HLA)。
腫瘤新抗原:
腫瘤細胞產生的非同義突變會導致腫瘤細胞表達異常蛋白,這些異常蛋白如果在細胞內被降解為短肽段(抗原表位),再與MHC分子高親和力結合,並以復合物形式呈遞到細胞表面,將被T細胞識別並引起T細胞活化,進而攻擊腫瘤細胞,這種會引起T細胞活化的異常蛋白被稱為腫瘤新抗原。
通過對非同義體細胞突變的分析,結合患者的HLA分型可以預測出新抗原。
軟件:
- pVACSeq:輸入SNV/InDel(non-synonymous)——neoantigen prediction
結果rank排序
1. 2生殖系SNV和InDel
生殖系突變又稱為遺傳性突變,是通過父母遺傳給后代的突變。這些突變往往在腫瘤易感中發揮重要作用。了解它們可提前預防,減少患癌風險。
2.CNV
2.1 局部(focal)顯著CNV分析
軟件:
GISTIC
3. SV
3.1 SV特征(signature)
SV signature類似於mutation signature,不同突變特征的產生代表了不同的變異機制。
首先采用DBSCAN聚類算法來區分局部聚集的和分散的體細胞SV,然后根據變異類型(倒位、缺失、串聯重復和易位)和長度(1-10kb, 10-100kb, 0.1-1Mb, 1-10Mb, >10Mb)將結構變異分為32類,最后使用貝葉斯非負矩陣分解(NMF)算法來提取SV特征以鑒定不同的重排模式。
3.2 病毒插入整合分析
研究目的:
- 病毒是一種重要的致癌因子,導致了10%-15%的腫瘤,如肝癌、宮頸癌,約95%的宮頸癌是由HPV感染導致。
- 病毒基因組插入到人基因組會引起宿主基因組不穩定,突變積累,引起整合位點附近劇烈的拷貝數變化。
- 幫助理解病毒的致癌機制。
分析流程:
4 整合分析
4.1 腫瘤內部克隆進化與瘤內異質性分析
腫瘤異質性:
- 瘤間異質性
- 瘤內異質性,是腫瘤內部克隆進化的結果。如同一個體不同位置取樣
克隆進化研究意義:
闡釋腫瘤發生、發展和轉移過程中的細胞群體變化規律,找出針對腫瘤不同發展階段的主要瘤內亞克隆的治療策略。
分析:
分析結果一般以魚型圖或進化樹方法展示:
4.2 突變網絡分析模塊
1)通路富集分析
基因之間通常相互作用,在某些生物學功能中發揮重要作用。
通路富集初步分析基因可能參與的生物學過程或信號通路,了解腫瘤發生發展機制。
2)互斥和協同突變分析
觀察基因突變間的相互作用以及突變類型上的一些規律,結合基因功能、樣本分群或腫瘤亞克隆分類等闡釋生物學意義。
應用:
- 定義腫瘤亞型
- 定義驅動基因
4.3 腫瘤分子分型
- 基於高頻突變基因
- 基於多組學數據聚類分析
- 基於突變特征
4.4 數據庫注釋
- TCGA:將感興趣的基因在各種腫瘤中的突變頻率、拷貝數擴增或缺失頻率。
- CIViC:葯靶數據庫,針對特定體細胞突變,預測靶向治療的反應
- 其他IGCG,COMIC等。。。
- 泛腫瘤組學數據庫系統 bgiPETA