目錄
3C簡介
技術類型及區別
數據下載
基本應用
3C簡介
核心理念就是把真核細胞核里的DNA三維折疊結構給測序出來,一個最經典的模型就是遠距離enhancer可以促進轉錄。
真核生物細胞核中的染色質通過折疊成高度動態、復雜的高級結構,調控基因的轉錄、復制,以及損傷修復等重要功能。理解染色質在細胞核內如何折疊,基因組的三維空間結構如何調控基因轉錄、復制和修復等生物學功能,以及探索核染色質在遺傳、發育、分化、癌變等生物學過程中的變化規律是當前三維基因組學(Three-Dimensional Genomics)研究領域的主要內容。
核心的技術就是3C(Chromosome Conformation Capture)實驗技術。
染色質構象首先被甲醛交聯固定;隨后,基因組被限制性內切酶消化;存在相互作用的染色質由於空間接近,在重新連接酶消化后的基因組時,存在相互作用的染色質將被連接到一起;解交聯純化DNA后,針對感興趣的兩個特定基因組區域分別設計引物,並對重連接產物進行PCR擴增;最后通過PCR條帶的強度,可對這兩個區域的相互作用情況進行定性或定量評估。
一個關鍵的發現是TAD(Topological Associated Domains)
在每個染色體內部還存在更小尺度(平均約800 kb)的拓撲相關結構域(Topological Associated Domains, TAD),TAD內部的DNA元件之間形成了較為緊密的相互作用,而不同TAD之間的相互作用則較弱。相鄰TAD的邊界上結合有染色質結構蛋白,如CTCF蛋白、cohesin蛋白復合體等,這些蛋白起到組織染色質結構並隔離兩個相鄰的TAD之間互作的功能 。
比較:
- 3C技術適用於評估兩個目標區域之間的空間相互作用
- 4C技術適用於捕獲染色質某一區域與全基因組其他區域間相互作用(一對多)
- 5C技術適用於同時捕獲染色質多個區域之間相互作用(多對多)
技術類型及區別
看看yue lab網站上的幾種數據:
- Hi-C
- Virtual Hi-C
- ChIA-PET
- Capture Hi-C
- Compare Hi-C
- PLAC-Seq
在Hi-C技術中,限制性內切酶消化后的染色質在末端補平時連入biotin,用於標記重組信號,重組片段通過生物素富集后建庫測序。Hi-C技術可以同時捕獲全基因組染色質間的相互作用。
Hi-C更適用於研究大尺Hi度上的染色質結構,而不適用於研究轉錄調控元件之間的相互作用。
為了更好的捕獲基因組轉錄調控元件之間的遠距離相互作用,結合轉錄調控元件檢測技術的其他染色質構象捕獲方法被提出。這些方法主要包括三類。
第一類,是轉錄相關蛋白介導的染色質相互作用的捕獲技術(Chia-PET,HiChIP,PLAC-seq)。在這類技術中,最早被提出的是阮一駿等開發的嘉PET技術。Chia-PET作為一種可以有效富集蛋白介導的染色質間相互作用的技術。
第二類,是目的探針所在區域的染色質相互作用的捕獲(Capture Hi-C)。這類技術以啟動子捕獲Hi-C技術為代表,根據啟動子區域設計RNA探針,在Hi-C實驗的基礎上加入了一步探針的富集,檢測啟動子探針所在區域的染色質相互作用。
第三類,是基於開放染色質間相互作用的捕獲。
比較
- ChIA-PET,HiChIP,PLAC-seq 僅能捕獲某一種蛋白介導的染色質間的相互作用;
- Capture Hi-C技術通過特異性探針,捕獲探針所在區域(如啟動子區)染色質間相互作用;
- DNase Hi-C雖然可以富集開放染色質之間的相互作用,但是由於DNase I整合效率非常高,高度片段化的染色質之間自連或隨機連接,減少了真實相互作用的捕獲比例.
- BL-Hi-C捕獲了10000多個高GC區域的染色質相互作用,這些相互作用大多是CTCF HiChIP及RNAPII HiChIP的子集。
這些技術雖然各有優勢,然而大都依賴目的蛋白,探針序列,酶切偏好。綜上所述,一種不依賴於探針序列及蛋白抗體,用染色質開放程度為富集條件,直接高效富集全基 組活躍轉錄調控元件間相互作用的技術需要被開發。
數據下載
下載 Capture Hi-C 數據,用於找cGene
玩玩下面NG里的數據
Accession codes.
Raw data and significant interactions are available in the ArrayExpress database under accession E-MTAB-2323.
可以下載四個文件:
TS5_CD34_promoter-other_significant_interactions.txt TS5_GM12878_promoter-other_significant_interactions.txt TS5_CD34_promoter-promoter_significant_interactions.txt TS5_GM12878_promoter-promoter_significant_interactions.txt
數據格式:
chr bait start bait end bait Symbol Ensembl Gene ID expresssion quartile chr start end raw count log(observed/expected) chr16 1300375 1307582 TPSD1-002|TPSD1-001 ENSG00000095917 4 chr16 1276549 1286070 53 15.1072090072489 chr1 1648711 1672992 CDK11A-008|CDK11A-001|CDK11A-003|CDK11A-004|CDK11A-005|CDK11A-009|CDK11A-007|CDK11A-011|CDK11A-202|CDK11A-201|CDK11A-203 ENSG00000008128|ENSG00000215790|ENSG00000226628|ENSG00000227775|ENSG00000244250 na chr1 1583927 1585571 49 15.088711195213
就是兩個bed文件的cbind,左邊就是TSS region,也有注釋到的基因;右邊就是遠距離的區域。
簡單明了。
更全的數據:http://www.3div.kr/capture_hic
需要用filezilla登陸ftp服務器下載。
Unclicking “Display P/O” interactions will remove Promoter-Other interactions, leaving purple arcs (Promoter-Promoter interactions) only.
可以猜到pp和po的含義
基本應用
找cGene
如果某個SNP落在了右邊的區域,那么左邊的3D 交互的基因就是該SNP的 cGene(Conformation gene)。
參考:
Yue Lab - lab網頁
3D Genome Browser - 數據中心
三維基因組中的開放染色質互作網絡(一) - 良心入門教程
三維基因組中的開放染色質互作網絡(二) - 良心入門教程
北大李程組綜述:三維基因組學及在疾病中的應用 - 綜述,好好看下
Mapping long-range promoter contacts in human cells with high-resolution capture Hi-C - NG - 2015
A (continuously updated) collection of references to Hi-C data - GitHub
GSDB: a database of 3D chromosome and genome structures reconstructed from Hi-C data