Hi-C是高通量染色體構象捕獲(High-throughput Chromosome Conformation Capture, Hi-C)技術的簡稱,開發於2009年,最初用於捕獲全基因組范圍內所有的染色質內和染色質間的空間互作信息,目前已應用於基因表達的空間調控機制研究、構建染色體水平參考基因組、構建單體型圖譜等。
樣本處理:甲醛交聯固定
Illumina PE150測序,質量評估,數據對比過濾,有效數據篩選統計,輔助基因組組裝 互作圖譜構建,互作矩陣構建 (標准分析)
Hi-C數據獲得的基因間互作強度具有兩個重要特征:
① 同一條染色體內的基因互作(順式互作)遠高於不同染色體間的互作(反式互作)。
② 同一條染色體內部,兩點間距離越遠,互作強度越低。
利用此特征可將原始contigs聚類、排序、定向,組裝至染色體水平。可對已經組裝的基因組進行糾錯。
TAD (topologicallyassociating domains)即拓撲相關結構域,是指一段具有折疊結構的DNA序列,在圖中表現為“方塊”,此區域內部的互作頻率會顯著高於毗鄰的兩個區域之間的互作頻率,TAD是基因組在空間結構中的基本組織形式。
基因組單體型: 單體型(Haplotype,haploid genotype)是個體組織中,完全遺傳自父母雙方中一個親本的一組等位基因,又稱單倍體型或單元型。
Hi-C實驗樣本要求:
動物組織:≥1g(肌肉、肝臟等) 建議培養2-3g組織用於固定,以保證實驗可重復性。
Hi-C需要生物學重復嗎?測多少數據量?周期如何?
從目前發表的文獻來看,需要做2個生物學重復。理論上是需要做 3 個重復的,但是從成本角度考慮,暫時 Hi-C 可以做兩個技術重復,即如果一個樣本理論上需要測 180G 數據量,那我們建兩個文庫,每個文庫測 90G,分析數據相關性比較高后將兩個文庫的數據進行整合。
每個樣本的測序量根據分辨率計算,一般在基因組大小的100x~300x之間。根據項目經驗100X時分辨率能達到44Kb。在人類淋巴樣細胞中,密度最大的區域包含49億個接觸點,分辨率達到1Kb。分辨率值越小圖越精細? 一般來說,500kb看 A B compartment 50kb可以看到看到TAD ,50kb以下可以看到一些DNA loop。我們看到熱圖對角線上大方塊(代表了接觸的頻率)。 這些方塊將基因組划分為5-20 Mb的間隔,我們將其稱為“megadomains”。我們也在1M(100kb)的分辨率下面,看到很多compartmentA/B (一般來說,compartmentA/B是類似於那種格子形狀,有類似於條紋格子在的就認為有A/B compartment )在GM12878的細胞5KB分辨率的Hi-C的數據中,發現了peak。 絕大多數peak(98%)反映了相距<2 Mb的基因座之間的環 (DNA loop)。Hi-C結果可以被看做是“接觸矩陣”M,通過在基因組上進行畫bin(1MB/1kb的大小),Mij是Li, Lj觀察到的互作的情況(指的是數到mapping到基因組的reads數,去除重復和沒比對到基因組上的),可以通過熱圖來可視化。Hi-C圖的''矩陣分辨率'定義,為使得80%的locus具有至少1,000個interaction?
https://cloud.tencent.com/developer/article/1480877
項目周期一般在3~4個月(含標准分析及高級分析),如下圖標准分析75天。
在設定的 bin size 下,80%-90%以上的 bin 對有 reads 支持(80%-90% bin 與 bin 之間有互作),則認為此分辨率是可以達到的。市場上偷換概念者大有人在,把 bin size設得特別小,但是很多 bin 都是空的,即和其他 bin 沒有互作,可能也就 50% 甚至更低的 bin 之間有互作,達不到承諾的分辨率。
http://www.genome.cn/Product/HiC/fhic#Position
最終可用於分析的Valid Rate(%)均在60%以上,最高可達83%。
https://wiki.antpedia.com/n-2271373-news
參考來源:
http://www.frasergen.com/cn/index_231.aspx