1. 什么是單倍型?
同源染色體:同源染色體,一個來自母本,一個來自於父本。
單倍型:單倍體基因型的簡稱。遺傳學上指在單條染色體上一系列遺傳變異位點的組合。
2. 單倍型組裝的意義?
目前,大多數二倍體基因組組裝都忽略了同源染色體之間的差異,將基因組組裝成一個假的單倍體序列,這是二倍體類型的組裝的人為共識。這種人為的共識可能導致基因注釋的不精確和生物學解釋的錯誤。
為了深入研究的需要,更多的物種需要將來自父母的遺傳信息都獲得,因此參考基因組就需要獲得兩個單倍體基因組,也就是單倍型基因組。
目前單倍型技術主要應用領域包括:
- 在醫學上探索致病機理,挖掘致病基因,尋找疾病治療新方法;
- 在群體遺傳學上分析等位基因間差異,追蹤個體親緣關系,了解生物遷徙模式和進化歷史;
- 在農業上發掘優異等位基因變異,探索雜種優勢理論等。
3. 如何進行單倍型組裝?
早期已經提出了幾種算法來生成單倍型解析的程序集,也稱為分階段程序集。FALCON-Unzip,Supernova
等使用相對短距離的序列數據進行定相,但只能解析高達9Mb的單倍型人類樣品。這些方法無法逐步完成着絲粒或長重復。擴展FALCON-Unzip
的FALCON-Phase
使用Hi-C連接相控序列模塊,可以生成更長的單倍型,但無法實現染色體長的定相。
近年出現了幾種有效的單倍型組裝方法。
方法1:Trio-binning (Illumina+Pacbio)
由美國國家人類基因組研究所、Pacific Biosciences公司及阿德萊德大學等單位的研究人員開發,發表在2018年10月22日的Nature Biotechnology雜志上。
Trio binning首先使用來自兩個親本基因組的高精度短讀長數據將子代的長讀長序列划分為單倍型特異性的集合,然后每個單倍型獨立組裝,形成一個完整的二倍體重建。
組裝方法
- 1)測序:兩個親本分別二代Illumina測序,對F1代進行三代PacBio測序。
- 2)分割三代數據:使用兩個親本的二代數據獲取單倍型特異性k-mers。利用特異性k-mer將三代數據分割
- 3)利用分割的數據分別組裝
優缺點
Trio binning是一種簡便、准確、高效的二倍體參考基因組組裝方法。在擬南芥、人類及牛單倍型組裝中表現良好,但Trio binning對樣本具有很高的要求,必須能夠獲取雙親的二代數據。
在進行數據分割時一部分雜合子reads不能明確地划分為親本單倍型:如果雙親在某個位點上都是雜合,那么這個位點無法給reads提供有效的kmer信息,並且不能被唯一地分配給一個親本單倍型;同樣如果父本在一個位點是雜合子,而母本是純合的,從母本單倍型來看也不能分割。在標准的trio-binning中,不能被區分的雜合reads在兩個親本數據集中都會使用。因此,這兩個等位基因可能存在於一個單倍型組合中,並引入錯誤。另外還可能存在將reads錯誤划分到其中一個親本的情況。
方法2:DipAsm(HiFi+Hi-C)
由李恆、Evan E. Eichler、George M. Church等人聯合開發的新的基因組組裝方法,發表在2020年12月7日的Nat Biotechnol 雜志上。
DipAsm使用HiFi數據和Hi-C數據,可以在1天之內生成染色體規模的分相組裝,具有98-99%的准確性。
組裝方法
- 1)Peregrine:Pacbio HiFi reads 組裝成不分相位的congtig;
- 2)HiRise / 3D-DNA:結合Hi-C數據生成不分相位的scaffold;
- 3)DeepVariant :Hi-C reads mapping到scaffold上call 雜合snp;
- 4)WhatsHap和HapCUT2:處理HiFi reads和Hi-C reads雜合snp;
- 5)WhatsHap:根據相位分割reads;
- 6)Peregrine:分割的reads分別組裝。
優缺點
DipAsm將促進高質量的精准醫學以及個體單倍型變異和種群多樣性的研究,但DipAsm使用SNP信息進行定相,這對於長度長數據准確性要求高,也就是需要使用 PacBio HiFi,否則將增加SNP的錯誤率,部分涉及長SV的高度雜合區域會出現錯誤。
方法3:strand seq + long reads
由德國杜塞爾多夫海因里希·海涅大學Tobias Marschall和美國華盛頓大學Evan E. Eichler合作,使用單細胞鏈測序和長讀取實現了親本數據非依賴的全階段人基因組組裝,2020年12月7日發表在Nature Biotechnology上。
組裝方法:
Strand-seq具有三個重要功能:
- 1)它可以按染色體對reads或contig進行排序;
- 2)它可以定序和定向contig;
- 3)它提供了一個染色體范圍內的相位信號,而與物理距離無關。
步驟:
-
- 使用長reads組裝成不分相位的contig;
-
- Strand-seq比對到congtig上,contig進行排序和連接,形成染色體;
-
- 長reads mapping到 染色體上call SNVs;
-
- WhatsHap:利用SNVs 分割長reads;
-
- wtdbg2 , Flye, Canu or Peregrine2:分割的reads分別組裝。
優缺點:
組裝准確(質量值> 40)且高度連續(contig N50> 23 Mbp)、轉換錯誤率低(0.17%)、並可提供了全相單核苷酸變體、插入缺失和結構變體等。
Strand-seq是一種單細胞技術,它不需要親本或配子,這種技術利用基因圖譜技術對染色體、單倍型和scaffold的長序列進行聚類; 然而,生成Strand-seq數據的困難限制了它在少數模型物種中的應用。