BSA分析


兩種算法

1. 歐氏距離(ED)算法

image.png
mut與wt分別代表突變型混池、野生型混池,A、C、G、T表示標記位點各突變型所占測序reads的比例,對於二倍體來說,大部分標記只有兩種突變型。

MMAPPR,ED法是其中一個環節,通過計算不同混池間各突變型的頻率距離,采用距離差異來反映標記與目標區域的連鎖強度。
image.png

2. SNP-index算法

image.png

通過尋找混池之間基因型頻率的顯著差異,用Δ(SNP-index)統計。Marker與性狀關聯度越強,Δ(SNP-index)越接近於 1。

通過在基因組上選擇一定大小的窗口,如100Kb,通過滑窗法在全基因組水平內對窗口內包含的SNP進行計算,得到兩個極端混池Δ(SNP_index)的值,然后對在同一條染色體上的SNP標記的Δ(SNP_index)進行LOESS回歸擬合,獲得關聯的閾值,選擇閾值以上的區域作為與性狀相關的關聯區域,最后通過注釋信息找到備選的突變基因。

SNP-index方法通常需要親本的測序信息,這樣做有兩個好處:①排除兩個親本相對於參考基因組共有的SNP,相對於是去除背景噪音的作用,這個也是最主要的作用;②親本檢測出來的SNP是和目標性狀直接對應的,這樣可以去除一部分SNP index趨近於1但是與目標性狀並非連鎖的標記。

ref:
BSA分析算法中的ED算法和SNP-index有什么區別?

實操

1. 上游分析

  • 數據過濾:fastp(快)

  • 比對:bwa +samtools(排序)

  • 去重:sambamba/samtools rmdup/picard MarkDuplicates

  • 變異檢測:bcftools(快)/freebayes/GATK

  • 變異過濾:bcftools filter(視具體情況)

2. 下游分析

上游偏標准化,下游偏生物學背景。

  • vcf信息提取:vcfR包
    利用vcf中AD(Allele Depth)和GT(Genotype)提取信息,gt基因矩陣包含基因型信息,提取基因數。
  • SNP-index計算與繪圖
    利用雙親基因型過濾,根據AD計算SNP-index,再繪制各染色體散點圖。
  • ED計算與繪圖
    根據公式計算ED,再繪制散點圖。

ref:
如何使用BSA方法進行遺傳定位(水稻篇)


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM