構建一個近乎完整的植物基因組


前言

植物基因組大小跨越幾個數量級,倍性和雜合性變化,以及新舊基因組轉座子變化等帶來組裝挑戰。三代和物理圖譜提供了新機會,單倍型定相、結構變異分析、從頭泛基因組研究成為新興組裝熱點。

植物基因組發展:

  • 擬南芥:sanger BAC-by-BAC。
  • shotgun OLC (CELERA assembler):木瓜、大豆、楊樹等早期測序植物。
  • 454/Illumina DBG 短序列高深度帶來植物基因組組裝大爆發,但質量較低。
  • 單分子PacBio長度長帶來接近完整染色體組裝。
  • 輔助技術發展:Hi-C/BioNano(無需昂貴的BAC物理圖譜)
  • ONT納米孔能達上Mb,組裝擬南芥、番茄、高粱、香蕉、甘藍等更連續和完整的版本。

在過去20年種,有400多個植物基因組已發表,包括333個被子植物,15個非被子植物、2個輪藻和44個綠藻。

可查閱:
https://www.plabipd.de/portal/web/guest/sequenced-plant-genomes

1. 單分子長度長測序

PacBio通過CCS產生HiFi 15 kb reads的方法准確率高達99.8%,解決了錯誤率問題,但每條read成本高了近5倍。

基因組測序的發展,在基因組完整度上已經有了很大提升。
image.png

2. 長度長基因組組裝的錯誤傾向

新算法的設計目的:correct, overlap, and polish long reads with high error-rates。
算法隨計算設計、速度、內存使用、復雜基因組利用而變化。

  • 自糾方法self-correction:CANU、Falcon(phase/unzip)、MARVEL、MECAT。利用reads相互比對,需要較高覆蓋度。
  • correction-free:基於OLC的minimap2/miniasm、基於DBG的wtdbg2和Flye。要求更高復雜度的基因組。

組裝的草圖有誤差,必須用高覆蓋度的長讀長或短讀長polish,一般大於三次可達到>99.6%的准確性。

  • long reads:Quiver/Arrow (PacBio)、Medaka (ONT)、Nanopolish、Racon。
  • short reads:Pilon

PacBio CCS HiFi軟件:Peregrine

3. 物理圖譜技術

  • a.Hi-C
  • b.Optical maps
    image.png

4. 解決復雜植物基因組

如下圖,兩條染色體組裝時定相,雜合基因組phasing有如下方法:

  • 右上:嵌合假分子,簡化下游分析。
  • 右中:原始reads比對到contigs,解決缺失的單倍型區域,建立一個定相的二倍體組裝。
  • 右下:保留部分單倍型,並在基於圖的組裝中加以標記。
    image.png

5. 利用組裝圖

組裝經典指標是N50,或者最短序列長度大於組裝的50%,方法過於簡單。
利用組裝圖可以可視化復雜度和鄰接contig的overlap。

  • 純合簡單基因組(左上圖):理想的graph對於每個contig(節點)只有一條邊和鄰接序列相連。
  • 氣泡圖(左下圖):高雜合性,節點(單倍型)被多條邊連接。
  • 復雜重復(右上圖):在圖結構中較模糊,如rRNA,centromeric satellite DNA。
  • 毛團(hairballs,右下圖):多拷貝重復,無清晰路徑,節點互交。
    image.png

當參考基因組被泛基因組取代時,基因組圖論將是代表復雜基因組更好的方法。

挑戰和展望

挑戰:

  • 多倍體和雜合度

展望:

  • 基因組完整、少gap、定相。
  • denovo替代重測序,挖掘更多多樣性,用於群體遺傳和泛基因組分析。
  • 基因組注釋將落后於組裝,提高注釋質量需要新技術(如全長cDNA,PacBio Iso-seq等)以及新算法。

參考文獻:Todd PMichael. Building near-complete plant genomes. Curr Opin Plant Biol. 2020 Apr;54:26-33.


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM