前言
植物基因組大小跨越幾個數量級,倍性和雜合性變化,以及新舊基因組轉座子變化等帶來組裝挑戰。三代和物理圖譜提供了新機會,單倍型定相、結構變異分析、從頭泛基因組研究成為新興組裝熱點。
植物基因組發展:
- 擬南芥:sanger BAC-by-BAC。
- shotgun OLC (CELERA assembler):木瓜、大豆、楊樹等早期測序植物。
- 454/Illumina DBG 短序列高深度帶來植物基因組組裝大爆發,但質量較低。
- 單分子PacBio長度長帶來接近完整染色體組裝。
- 輔助技術發展:Hi-C/BioNano(無需昂貴的BAC物理圖譜)
- ONT納米孔能達上Mb,組裝擬南芥、番茄、高粱、香蕉、甘藍等更連續和完整的版本。
在過去20年種,有400多個植物基因組已發表,包括333個被子植物,15個非被子植物、2個輪藻和44個綠藻。
可查閱:
https://www.plabipd.de/portal/web/guest/sequenced-plant-genomes
1. 單分子長度長測序
PacBio通過CCS產生HiFi 15 kb reads的方法准確率高達99.8%,解決了錯誤率問題,但每條read成本高了近5倍。
基因組測序的發展,在基因組完整度上已經有了很大提升。
2. 長度長基因組組裝的錯誤傾向
新算法的設計目的:correct, overlap, and polish long reads with high error-rates。
算法隨計算設計、速度、內存使用、復雜基因組利用而變化。
- 自糾方法self-correction:CANU、Falcon(phase/unzip)、MARVEL、MECAT。利用reads相互比對,需要較高覆蓋度。
- correction-free:基於OLC的minimap2/miniasm、基於DBG的wtdbg2和Flye。要求更高復雜度的基因組。
組裝的草圖有誤差,必須用高覆蓋度的長讀長或短讀長polish,一般大於三次可達到>99.6%的准確性。
- long reads:Quiver/Arrow (PacBio)、Medaka (ONT)、Nanopolish、Racon。
- short reads:Pilon
PacBio CCS HiFi軟件:Peregrine
3. 物理圖譜技術
- a.Hi-C
- b.Optical maps
4. 解決復雜植物基因組
如下圖,兩條染色體組裝時定相,雜合基因組phasing有如下方法:
- 右上:嵌合假分子,簡化下游分析。
- 右中:原始reads比對到contigs,解決缺失的單倍型區域,建立一個定相的二倍體組裝。
- 右下:保留部分單倍型,並在基於圖的組裝中加以標記。
5. 利用組裝圖
組裝經典指標是N50,或者最短序列長度大於組裝的50%,方法過於簡單。
利用組裝圖可以可視化復雜度和鄰接contig的overlap。
- 純合簡單基因組(左上圖):理想的graph對於每個contig(節點)只有一條邊和鄰接序列相連。
- 氣泡圖(左下圖):高雜合性,節點(單倍型)被多條邊連接。
- 復雜重復(右上圖):在圖結構中較模糊,如rRNA,centromeric satellite DNA。
- 毛團(hairballs,右下圖):多拷貝重復,無清晰路徑,節點互交。
當參考基因組被泛基因組取代時,基因組圖論將是代表復雜基因組更好的方法。
挑戰和展望
挑戰:
- 多倍體和雜合度
展望:
- 基因組完整、少gap、定相。
- denovo替代重測序,挖掘更多多樣性,用於群體遺傳和泛基因組分析。
- 基因組注釋將落后於組裝,提高注釋質量需要新技術(如全長cDNA,PacBio Iso-seq等)以及新算法。
參考文獻:Todd PMichael. Building near-complete plant genomes. Curr Opin Plant Biol. 2020 Apr;54:26-33.