目前主流的基因填充方法有兩種:一步法填充和兩步法填充,其對比如下圖
一步法進行基因型填充
根據參考面板的基因型推斷樣本可能的基因型構成, 然后直接填充缺失的基因型,這種樣本單倍型是根據參考樣本的單倍型來 進行推斷的,每一個樣本都需要推斷一次,並且參考樣本更改以后,也需要重新根據參考樣本來進行單倍型推斷。
./impute2 \
-m ./Example/example.chr22.map \
-h ./Example/example.chr22.1kG.haps \
-l ./Example/example.chr22.1kG.legend \
-g ./Example/example.chr22.study.gens \
-strand_g ./Example/example.chr22.study.strand \
-int 20.4e6 20.5e6 \
-Ne 20000 \
-o ./Example/example.chr22.one.phased.impute2
其中:
example.chr22.map:
example.chr22.1kG.haps:
example.chr22.1kG.legend:
example.chr22.study.gens:
example.chr22.study.strand:
example.chr22.one.phased.impute2:
兩步法進行基因型填充,可分為兩個步驟
第一步進行基因型分型,把基因型通過分型操作轉成單倍型,然后與參考基因型的單倍型進行比較。
基因分型,是按照親本正確地定位到父親或者母親的染色體上,最終使得所有來自同一個親本的等位基因都能夠排列在同一個染色體里面,基因分型有三種方法:家系分型(Related individuals Phasing)、群體LD分型(LD Phasing)和物理分型(Physical Phasing),其中群體LD和家系分型常用,SHAPEIT2 為比較常用的分型軟件。
第二步將分型以后的基因型單倍體與參考模板的單倍型進行比對,填充出來缺失位點
impute2的原理是通過滑窗的形式進行學習參考分布,然后實時對填充序列進行填充,其實本質上如果這種方式填充序列樣本量比較小的時候就跟第二種是一樣的,序列的分布情況主要就依賴於參考序列,這種方式類似於進行比對,利用神經網絡學習比對的模式,然后進行運用
Step 1: Pre-phasing
./impute2 \
-prephase_g \
-m ./Example/example.chr22.map \
-g ./Example/example.chr22.study.gens \
-int 20.4e6 20.5e6 \
-Ne 20000 \
-o ./Example/example.chr22.prephasing.impute2
Example/example.chr22.map:
example.chr22.study.gens:
example.chr22.prephasing.impute2:
Step 2: Imputation into pre-phased haplotypes
./impute2 \
-use_prephased_g \
-m ./Example/example.chr22.map \
-h ./Example/example.chr22.1kG.haps \
-l ./Example/example.chr22.1kG.legend \
-known_haps_g ./Example/example.chr22.prephasing.impute2_haps \
-strand_g ./Example/example.chr22.study.strand \
-int 20.4e6 20.5e6 \
-Ne 20000 \
-o ./Example/example.chr22.one.phased.impute2
-phase
example.chr22.1kG.legend:
example.chr22.prephasing.impute2_haps:
此文件的snp和study的snp數量是一致的。
example.chr22.one.phased.impute2:
總結:填充的出來的snp長度並不是所有的參考樣板的長度,根據參數int 20.4e6 20.5e6 \來進行限定的,從而impute在分型和填充階段就指根據study數據填充20.4M到20.5M之間的缺失snp,再加上原本study已經測得的snp,經過正負連旋轉以后得到與參考樣本統一的正負連數據,參考樣本的數據一般都為正連數據,最后填充出來的基因型與參考樣本的基因型是同為正連數據。
注意:參考樣本為單倍型,study數據為基因型數據,prephase以后的數據為基因型(基因分型,其實就是根據LD數據進行分型,分清父系和母系之間的等位基因歸屬),最終得到的結果數據為基因型數據,並且不同的基因型數據需要給出info得分。
IMPUTATION WITH ONE UNPHASED REFERENCE PANEL
IMPUTATION WITH TWO PHASED REFERENCE PANELS
IMPUTATION WITH TWO PHASED REFERENCE PANELS (MERGE REFERENCE PANELS)
IMPUTATION WITH ONE PHASED AND ONE UNPHASED REFERENCE PANEL
IMPUTATION WITH ONE PHASED AND ONE UNPHASED REFERENCE PANEL, WITH ADDITIONAL OPTIONS