摘要:如果不設置任何過濾標准的話,SOAPsnp會call出更多的SNVs;AtlasSNP2算法比較嚴格,因此call出來的SNVs數量是最少的,GATK 和 SAMtools call出來的數量位於SOAPsnp 和 Atlas-SNP2之間;四種calling算法的整體一致性是很低的,尤其在non-dbSNPs數據庫中;GATK 和 Atlas-SNP2有較高的陽性call率和靈敏性,GATK call出來的SNVs數量比較多。
1、dbSNP數據庫和non-dbSNPs在用四種不同軟件call出來的SNVs的比較:
對於修剪過的reads(指的是去除低質量的鹼基),在四種分析軟件中,dbSNP數據庫一致性比non-dbSNP數據庫好,因為dbSNP數據庫的variants位置更常見,因此比較容易被call出來
2、raw reads和修剪過的reads(指的是去除低質量的鹼基),call出來的SNVs數量比較:
比起raw data,修剪過的reads,call出來的variants會比較多,SOAPsnp call出來的variants比其他三個軟件多,可能是因為這個軟件對SNP filter的要求沒那么嚴格
3、不同鹼基覆蓋度閾值時,四種不同軟件call出來的SNVs比較:
鹼基覆蓋度由3X上升到4X時,SNVs call出來的數量驟然下降了50%,當上升到10X時,call率下降了15%。SOAPsnp call出來的變異是最多的,Atlas-SNPs call 率是最少。然而,對於同一個軟件來說,隨着鹼基覆蓋度上升,call出來的數量變少的趨勢在變慢。
參考文獻:Yu, Xiaoqing, and Shuying Sun. "Comparing a few SNP calling algorithms using low-coverage sequencing data." BMC bioinformatics 14.1 (2013): 274.