【變異檢測】CNV分析和應用


 

前言

拷貝數變異(copy number variation ,CNV)是指基因組上某些大片段的拷貝數增加或減少,可分為缺失(deletion)和重復(duplication)兩種類型。CNV是一種基因組結構變異,可通過改變基因劑量和轉錄結構等來調節有機體的可塑性,是個體表型多樣性和群體適應性進化的主要遺傳基礎之一。在基因組中,CNV的變異形式主要包括單個片段的倍增、缺失和多次重復,其中,最常見的形式是單個片段重復(segmental duplication, SD),其在不同拷貝之間的序列同源性大於90%。通過種內比較基因組學分析,可挖掘對表型有顯著效應的CNV。目前定義的CNV長度為50 bp~5 Mb的基因組序列的插入或缺失變異。

圖1 CNV類型示意圖[1]

CNV常見的檢測方法主要分為兩類:全基因組范圍內檢測未知CNV和定點檢測已知CNV。基因組未知CNV常用的檢測方法有芯片法和測序法。芯片法主要包括比較基因組雜交芯片(aCGH)和SNP芯片(single nucleotide polymorphism arrays)。DNA測序法主要包括全基因組測序(WGS)和單分子長讀長測序(long reads sequencing)。

研究表明,不少人類復雜疾病,動植物的重要經濟性狀都和CNV有密切關系。相比單鹼基SNP變異,CNV的長度更長,覆蓋更大范圍的基因序列,可通過改變基因的劑量效應等影響與基因相關的表型。隨着全基因組測序准確性的提高、信息量的擴大、成本的下降等,高通量大規模CNV檢測得以迅速發展,並且隨着GWAS方法的不斷完善,為基於CNV-GWAS發掘更多更可靠的重要形狀相關的功能CNV提供了條件,可為后續功能CNV的分子機理以及在育種中的應用奠定基礎。

下面就對這些分析點進行詳細介紹。

常見分析內容

1.CNV檢測結果及統計

用柱狀圖顯示不同類型的CNV在不同片段長度的分布情況。如圖2所示,灘羊CNV分布大約48.5%的CNV片段在10KB-50KB之間,CNV片段在50KB-100KB之間的占比是21.7%。CNVRs片段在10KB-500KB之間的占比是86.2%。大於1MB的CNVR很少,占比0.8%。

圖2 灘羊CNV變異分布統計

2.CNVR全基因組圖譜

CNV區域(CNV Region, CNVR)是指不同個體間檢測得到的CNV具有一部分重疊區域,把重疊的CNV進行整合,合並成為一個CNVR。如圖3所示,將47頭牛的CNV進行合並,共確定1043個CNVRs,共覆蓋44.63 Mb,約占普通牛基因組序列的2.06%。已知染色體上CNVRs的分布如圖3所示,共有702個是缺失類型(Loss),270個是插入類型(Gain),71個是屬於復雜類型(Both, CNVR中同時含Gain和Loss)。Loss型CNV的數量約是Gain的2.6倍。就長度而言,最長的CNVR長度為2,111,937 bp,最短的CNVR長度為3,600 bp。Loss型CNV的數量約是Gain的2.6倍。就長度而言,最長的CNVR長度為2,111,937 bp,最短的CNVR長度為3,600 bp。該研究為荷斯坦奶牛繪制了准確的全基因組CNVRs圖譜。

圖3 CNVRs的全基因組圖譜[2]

注:藍色-插入,紅色-缺失,綠色-復雜

圖4 CNVRs密度圈圖

注:粉色-缺失,紫色-插入,藍色-復雜,深灰色-SNP,淺灰色-大片段插入

 

3.群體遺傳結構和遺傳多樣性

為了研究山羊屬的系統發生關系,基於全基因組常染色體上的SNP計算了兩兩個體之間的遺傳距離。利用NJ法構建了系統發育樹(圖5 B),結果顯示伊朗野山羊(bezoar)與家羊分成兩大枝,並且家羊群體按地理來源聚類。利用ADMIXTURE軟件對bezoar和家羊群體進行遺傳結構分析(圖5 C),當k=3時,bezoar與家羊群體分為3大譜系;當k=6時,家羊群體分為4大譜系。為了細化家羊群體內部的遺傳結構,利用家羊群體SNP進行PCA分析(圖5 D),結果顯示:PC1和PC2將家養群體按地理來源分成4個亞群,分別為歐洲家山羊群體(EUR)、非洲家山羊群體(AFR)、西南亞家山羊群體(SWA-SAS)和東亞家羊群體(EAS)。

圖5 bezoar和世界家羊樣本地理來源分布圖和群體遺傳結構分析

4.基於CNVs的GWAS分析

基於性狀和CNV基因型,應用多種模型進行GWAS分析,完成不同模型的GWAS分析后,通過QQ plot比較不同模型下實際Pvalue與理論Pvalue的分布,判斷最優分析結果。獲得最優模型后,多重檢驗校正確定Pvalue的顯著性閾值,篩選顯著區域,並篩選CNV關聯的位點基因。獲得候選基因后,進行功能注釋和富集分析。

基於仔豬存活的遺傳率和CNV進行GWAS分析,如圖6,共檢測到16個區域,分別在2、3、4、11、12、13、14、15、16和17號染色體上,可解釋22.54%的遺傳表型。

圖6 存活的仔豬數量性狀GWAS分析曼哈頓圖[3]

在SSC2,SSC3,SSC12和SSC17上確定了GWAS和CNVR分析的顯著區域,總共包含56種編碼基因。這些基因通過基因劑量的變化影響仔豬存活的數量(表1)。

表1 顯著區域的基因注釋表

5.選擇清除與環境適應性位點挖掘--Vst分析

Vst分析是類似於Fst的一個指標,用來衡量群體間每個CNVR差異大小的統計量,計算方法為Vst=(Vt-Vs)/Vt,其中Vt表示所有樣本該區域拷貝數大小的標准差,Vs表示兩個群體各自的標准差根據各自群體大小加權之后的值。Vst的值介於0-1之間,值越大表示群體間該區域拷貝數變異差異越大,反之則越小。如圖7所示,CN vs WL的Vst平均值是0.11,CN vs RIR的Vst平均值是0.11,WL vs RIR的Vst平均值是0.15,說明WL vs RIR顯示出最高的分化程度,並且篩選Vst>0.79的CNVRs中的基因,並進行功能注釋與富集分析,GO富集分析顯示主要涉及器官發育,代謝和免疫調節。該研究有助於了解家禽在CNV水平上的遺傳特征,這可能為開發雞的繁殖提供有用的信息。

圖7 不同分群雞的基因組Vst值曼哈頓圖[4]

 

6.選擇清除與環境適應性位點挖掘--Bayescan分析

Bayescan用bayes的方法和Fst的經驗分布檢測outlier標記的方法,一般應用於地理等分群信息明確的比較組差異位點的選擇分析中。本研究中,結合材料的分群信息,使用bayescan進行差異位點的檢測,檢測完成后使用R腳本進行迭代收斂情況評價和outliers的篩選,並將outliers作為候選CNVRs。Bayescan outliers檢測結果如圖8所示:

(a)將所有基因座的Fst值與BayeScan的log10(q value)作圖。垂直虛線表示log10(q value)的q=0.05,右邊的點表示受選擇的顯著的CNVRs;

(b)按分群進行BayeScan的差異位點檢測和outliers的篩選。

圖8 Bayescan outlier檢測結果[5]

CNV介紹就分享到這里,后續再分享CNV的綜合案例應用。

參考文獻

[1]. Clinical implications of copy number variations in autoimmune disorders FAU - Yim, Seon-Hee FAU - Jung, Seung-Hyun FAU - Chung, Boram FAU - Chung, Yeun-Jun. Korean J Intern Med, 2015. 30(3): p. 294-304.

[2] Liu, M., Fang, L., Liu, S. et al. Array CGH-based detection of CNV regions and their potential association with reproduction and other economic traits in Holsteins. BMC Genomics 20, 181 (2019).

[3] Stafuzza, N.B., Silva, R.M.d., Fragomeni, B.d. et al. A genome-wide single nucleotide polymorphism and copy number variation analysis for number of piglets born alive. BMC Genomics 20, 321 (2019).

[4] Seol D, Ko BJ, Kim B, Chai H-H, Lim D, Kim H. Identification of Copy Number Variation in Domestic Chicken Using Whole-Genome Sequencing Reveals Evidence of Selection in the Genome. Animals. 2019; 9(10):809. [5] Kvist L, Honka J, Niskanen M, et al. Selection in the Finnhorse, a native all‐around horse breed[J]. Journal of Animal Breeding and Genetics, 2020.

 

 

復制於:更高級的重測序分析策略—CNV介紹及應用 - 知乎 (zhihu.com)


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM