DNA拷貝數變異CNV檢測——基礎概念篇
一、CNV 簡介
拷貝數異常(copy number variations, CNVs)是屬於基因組結構變異(structural variation),根據大小可分為兩個層次:顯 微水平(microscopic)和亞顯微水平(submicroscopic)。顯微水平 的基因組結構變異主要是指顯微鏡下可見的染色體畸變, 包括 整倍體或非整倍體、缺失、插入、倒位、易位、脆性位點等結構變 異。亞微水平的基因組結構變異是指 DNA 片 段 長 度 在 1Kb-3Mb 的基因組結構變異, 包括缺失、插入、重復、重排、倒 位、DNA 拷貝數目變化等,這些統稱為 CNV (也稱為拷貝數多態性(copy number polymorphisms, CNPs)。
CNVs最初是在病人的基因組中發現, 但后來的研究表明在正常人體中也普遍存, 說明CNV 是一組具有良性、致病性或未知臨床意義的基因組結構改變。有統計顯示, 目前共發現CNVs約57 829個(這個數據不准確,肯定在更新,圖1, 已發現的CNVs與染色體位置關系, http://projects.tcag.ca/variation/), 其中染色體倒位847; 100 bp~1 Kb的插入缺失為30 748個; 倒置斷裂位點約14 478個。此外, 據Hurles[1] 研究估計, CNVs至少占到基因組的12%, 已成為基因組多態性的又一重要來源。
有關CNVs的研究將隨機個體之間的基因組差異估計值提高到大於1%, 大大改變了人們先前的認識, 有學者甚至認為這一發現將改變人類對遺傳學領域的認知[3,9]。與一直以來研究較多的單核苷酸多態性(SNPs)相比, CNVs發生的頻率雖然較低, 但累及的序列長度卻明顯超過了前者, 因此對人類健康和疾病的影響更為顯著。
染色體非等位同源重排、非同源突變和非βDNA 結構是 造成基因組拷貝數變異的重要原因。目前研究表明 CNV 偏向 分布於基因超保守區域外的位置, 多達 40%的 CNV 位於基因 沙漠區(gene deserts)。存在 CNV 的基因經常參與人體對外界環 境的反應的生理過程,進而在細胞連接、感觀理解、化學刺激、 神經生理等過程中發揮重要作用。不存在 CNV 的基因往往是 劑量敏感性基因, 參與維持細胞的生長發育, 包括細胞信號傳 導、增殖、激酶化和磷酸化等過程;同時 CNV 可導致不同程度 的基因表達差異, 對正常表型的構成及疾病的發生發展具有一 定作用。
二、CNV 歷史
基因拷貝數CNV研究歷史 自 1998 年 Lupski 給出了基因病的定義之后[2] ,目前已經 發現大量的基因病是由基因組結構改變引起的,而非傳統的 Watson-Crick 鹼基配對變化所引起,其中一些基因病是由重組 區域的基因拷貝數發生改變所致。 2000 年 6 月 26 日參加人類基因組計划 ( human genome project , HGP) 6 個國家 (包括中國) 的科學家公布完成了人類 基因組草圖.隨后人類基因組序列繪制成功,首次在分子層面,上為人類提供了一份生命“說明書”:HGP 從分子層面上為多 種遺傳疾病、癌症及神經退化症的治療提供了基礎。
高通量陣列比較基因組雜交技術(array based comparative genomic hybridization CGH)加速了 CNV 的探究。2004 年 Iafrate 等人通過細菌人工染色體微陣列(bacterial artificial chromosome ,BAC-based array) 對 39 個非相關的健康人研究后發現 255 個變異位點,其中有 24 個位點出現的頻率大於 10%,有 6 個位點出現的頻率大於 20%,其平均間隔為 1Mb[3] 。同年 Sebat 及同事通過代表性單核苷酸微陣列分析 ( representational oligonucleotide microarray analysis ,ROMA) 對 20 個健康人研 究發現了 221 個 CNV,代表着 76 種 CNP,CNP 間隔平均長為 465kb[4] 。此外發現 CNP 間隔內 70 個不同基因的 CNV,包括調 節神經功能、細胞生長、新陳代謝的基因,以及幾種已知疾病的 相關基因。由此可以看出在正常人群中也存在一定數目的 CNV。
伴隨着研究者對 CNV 的研究越來越深入,Redon 等人通 過對 270 名具有歐洲、非洲或亞洲世系的 4 個群體研究,構建 了人類基因組第一代拷貝數變異圖譜[5] 。該研究表明:拷貝數變 異非常復雜,類型多樣。通過兩種平台:WGTP platform、500K EA platform,及兩種互補技術:單核苷酸多態性(SNP) 基因型微 陣列和基於克隆比較基因組雜交技術對這些個體 DNA 進行鑒 定,結果顯示有 1447 種拷貝數變異區(copy number variation regions, CNVR),涵蓋了 360 萬個鹼基(占人類基因組 12 %), 其 中 285 種與孟德爾遺傳疾病相關;並且指出 CNV 通常不編碼 發育相關的重要基因,而是編碼與環境作用相關的基因,即“環 境敏感性基因”,而這些基因通常參與細胞粘附、化學刺激、感 官知覺,神經生理過程等活動。
2009 年 AnnaC 等通過分析全基因組單核甘酸變異(Single Nucleotide Polymorphisms ,SNP)和 CNV 遺傳標記與精神分裂 症患者的相關性,提出不常見的致病性 CNV 區域對於精神分 裂症易感性方面發揮更重要的作用,而不支持共同變異(common variation)區域與精神分裂症的相關性[6] 。
2010 年 Christiaan 等通過對 95 個血液腫瘤細胞系的高通 量分析發現了一些共同發生的基因拷貝數變化位點,並對這些 位點進行功能分析,繪制出基因拷貝數變化 (獲得或缺失)網 絡,從而發現了一些中心節點,進而提出:大規模低強度的拷貝 數變化可能是腫瘤發生發展過程的重要特征[7] 。
目前已有幾個數據庫用來收集 CNVs 信息[8] :健康人群 CNV 可到 Genomic Variants (www.projects.tcag.ca/variation)查 詢;神經發育異常的患者 CNVs 可到 DECIPHER(www.sanger. ac.uk/PostGenomic/decipher/) 查詢;染色體異常的患者 CNVs 數據庫 www.ukcad.org.uk/cocoon/ukcad、www.isca.genetics.emory.edu/;染色體非平衡變異的患者 CNVs 可到 www.ecaruca. net 查詢。
三、CNV 形成機制
基因的結構特征決定基因是否容易發生重組,進而影響基 因拷貝數變化。重組主要發生在特定的重復序列區域,或者低 拷貝重復區(low copy repeats , LCRs)。LCR 中包含一個或多個 基因、假基因、基因片段、逆轉錄病毒序列、基因調控區,通常分布在端着絲粒和端粒區域,其大小、相對方向、各拷貝之間的距 離及同源程度,均將影響到 CNV 的形成[2] 。然而目前 CNV 的 確切機制仍不甚清楚,可能的機制主要包括非等位基因同源性 重組機制 (non-allelic homologous recombination, NAHR), 非同 源末端連接機制(non-homologous end joining, NHEJ )NAHR 機制一般發生在經常重組的區域,這些區域有如下 特征:(1)片段大小 >10kb,(2)序列同源程度 >97% , (3)序列方 向明確,(4) 每個 LCR 大小控制在 5Mb 以內,(5)LCR 在同一 染色體上[9];而 NHEJ 不需要重組斷端之間的具有嚴格的 DNA 同源性,但是仍能夠引發彼此毫不相干的 DNA 斷端的連接,導 致包括移位(移位) 等在內的染色體之間的重排。不經常發生重 組的 LCR,或者各 LCR 區域大小不一致時,傾向於通過 NHEJ 機制引起基因拷貝數變化。盡管如此,很多遺傳學家並不認可 NHEJ 機制