兩種算法
1. 歐氏距離(ED)算法
mut與wt分別代表突變型混池、野生型混池,A、C、G、T表示標記位點各突變型所占測序reads的比例,對於二倍體來說,大部分標記只有兩種突變型。
MMAPPR,ED法是其中一個環節,通過計算不同混池間各突變型的頻率距離,采用距離差異來反映標記與目標區域的連鎖強度。
2. SNP-index算法
通過尋找混池之間基因型頻率的顯著差異,用Δ(SNP-index)統計。Marker與性狀關聯度越強,Δ(SNP-index)越接近於 1。
通過在基因組上選擇一定大小的窗口,如100Kb,通過滑窗法在全基因組水平內對窗口內包含的SNP進行計算,得到兩個極端混池Δ(SNP_index)的值,然后對在同一條染色體上的SNP標記的Δ(SNP_index)進行LOESS回歸擬合,獲得關聯的閾值,選擇閾值以上的區域作為與性狀相關的關聯區域,最后通過注釋信息找到備選的突變基因。
SNP-index方法通常需要親本的測序信息,這樣做有兩個好處:①排除兩個親本相對於參考基因組共有的SNP,相對於是去除背景噪音的作用,這個也是最主要的作用;②親本檢測出來的SNP是和目標性狀直接對應的,這樣可以去除一部分SNP index趨近於1但是與目標性狀並非連鎖的標記。
實操
1. 上游分析
-
數據過濾:fastp(快)
-
比對:bwa +samtools(排序)
-
去重:sambamba/samtools rmdup/picard MarkDuplicates
-
變異檢測:bcftools(快)/freebayes/GATK
-
變異過濾:bcftools filter(視具體情況)
2. 下游分析
上游偏標准化,下游偏生物學背景。
- vcf信息提取:vcfR包
利用vcf中AD(Allele Depth)和GT(Genotype)提取信息,gt基因矩陣包含基因型信息,提取基因數。 - SNP-index計算與繪圖
利用雙親基因型過濾,根據AD計算SNP-index,再繪制各染色體散點圖。 - ED計算與繪圖
根據公式計算ED,再繪制散點圖。
ref:
如何使用BSA方法進行遺傳定位(水稻篇)