動植物基因組組裝要點小結


組裝策略

二代測序平台如Illumina、BGI,穩定可靠,數據質量高,成本低,讀長短。
三代測序平台如PacBio、Nanopore,超長讀長、無PCR擴增,錯誤率高,成本高。

現在物種的簡單基因組基本已完成大多,純二代組裝已經沒什么意義,復雜基因組或者高質量基因組基本都是三代測序為主。

由於經費限制,現在多為“”二代+三代“”以下兩種組合策略:

  • 以三代為主組裝,二代糾錯;
  • 以二代為主組裝到contig,三代scaffolding和gapfilling。

目前第一種策略為主流。

輔助技術

輔助組裝解決的關鍵問題:contig/scaffold的順序和朝向。

  • BioNano
    光學圖譜技術是一個利用單個DNA分子基因組限制性內切酶圖譜快速生成高分辨率、有序的全基因組限制性內切酶圖譜的方法。
    目的是增加基因組Scaffold長度;減少Scaffold數量;對已組裝的基因組進行糾錯;檢測大片段結構變異。

  • Hi-C
    一般為PE150測序。通過染色體構象捕獲(3C)來確定全基因組范圍內染色質DNA在空間位置上的關系,分群聚類。
    一般用來連接scaffold到染色體水平。如果不借助遺傳圖將基因組掛載到染色體水平。每一個基因組都需要一個Hi-C。

  • 遺傳圖譜
    一般連接染色體。不同的遺傳圖譜結果可能有差異,可以將多個圖譜進行整合。

  • 轉錄組
    先組裝轉錄組,再比對到參考基因組,更多的是用於輔助基因組注釋。
    一般為PE150或三代全長Iso-seq,測多個不同組織。

  • 10X genomics
    同一長片段的reads加上相同的barcode信息,即linked-reads,從而提高reads的長度,本質上還是二代Illlumina測序。一般將short-read測序和10X的linked-read結合,可獨立於三代。

隨着三代的准確性提高和成本降低,未來基因組組裝的標配:
PacBio純三代組裝contig + 光學圖譜進行糾錯與super scaffold組裝 + 遺傳圖譜或HiC進行染色體組裝。

三代+光學+Hi-C策略示意圖:

image.png

PacBio補充

相比於Nanopore(電信號),PacBio(熒光信號)用得更多,主要有兩種模式:

  • CLR(20-30kb),耗時長,准確性較低
  • CCS(15kb,HiFi),快,自身矯正,准確性較高

測序深度?
自然越深越好,經費不足,可能20~50X,充足70 ~100X。

二代測序的深度最好能達100X,而且一般要結合不同大小片段文庫(PE和Mate)。

流程

image.png

主要分析內容

組裝

  • 質控
  • 三代組裝成contig
  • contig組裝scaffold、chromosome
  • 糾錯
  • 去污染(線粒體和葉綠體)

評估

  • contig、scaffold N50
  • 染色體數目
  • BUSCO完整性評估

注釋

  • 重復序列
  • 基因結構
  • 基因功能
  • 非編碼RNA

比較基因組

  • 基因家族聚類
  • 系統進化樹
  • 分歧時間估算
  • 基因家族擴張與收縮
  • 基因組共線性
  • 正選擇
  • 全基因組復制

解析Illumina+PacBio組裝策略
10X Genomics vs. PacBioSOAPdenovo組裝軟件使用記錄HiFi Reads基因組組裝:快、准、狠
Pacbio三代基因組組裝簡介
光學圖譜輔助基因組組裝


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM