單倍型,即單倍體基因型,概念很好理解。
單倍型分型的過程就稱之Phasing,定相或基因分型。
Phasing的意義,在人類疾病遺傳和動植物群體遺傳中非常重要。也是imputation的必經過程。
vcf文件中,./.
和.|.
分別表示未定相和已定相。
Phasing的方法:
- 家系定相,最准確,一般根據一家三口(Trio樣本)推斷,直接簡單;
- LD定相,最常用,根據群體LD block和統計模型,計算量大,只對高頻突變(如>5%);
- 物理定相,僅依賴測序數據,通過reads(來自同一單倍體)拼接,高深度測序能實現完全定相。
定相和填補同步進行,常用軟件:
- shapeit,beagle(人類居多)
- impute2
- Tassel(玉米)
- Falcon-unzip(三代)
對於PacBio HiFi的二倍體數據,可直接用IPA,hifiasm或HiCanu等組裝軟件完成定相。
更詳細的解釋可參考:
人類基因組的Phasing原理是什么?