K-mer分析


0. 基本參數

  基因組大小:G

  Read讀長:L

  總Read條數:n_r

1. 鹼基深度分布  

  單條Read測序覆蓋到某一個鹼基的概率:L/G

  因為L/G很小,n_r很大,每個鹼基覆蓋深度服從泊松分布。

  則每個鹼基的覆蓋深度的期望為:d_n=(L/G)*n_r

2. K-mer深度分布

  假設基因組對K是unique的,可以得到G個不同的K-mer。

  單條Read測序覆蓋某個K-mer的概率:(L-K+1)/G

  同樣因為(L-K+1)/G很小,n_r很大,每個K-mer的覆蓋深度服從泊松分布。

  則每個K-mer的覆蓋深度的期望為:d_k=((L-K+1)/G)*n_r

3. 通過K-mer分布估計基因組大小

  可知總K-mer個數:n_k=(L-K+1)*n_r

  通過統計K-mer分布可知K-mer深度期望:d_k=((L-K+1)/G)*n_r

  則基因組大小:G=n_k/d_k

4. 鹼基深度分布與K-mer深度分布的關系

  d_n/d_k=L/(L-K+1)

5. K-mer深度分析工具

  軟件:KmerFreq_AR_v2.0

  來源:SOAPdenovo2工具包,ftp://public.genomics.org.cn/BGI/SOAPdenovo2 

  命令: ./KmerFreq_AR_v2.0 -k 17 -t 4 -c -1 -p test test_read.lst >kmerfreq.cout 2>kmerfreq.cerr 

 6. 常見K-mer分布

  •  正常

  •  高雜合

  •  高重復

  最左出現的為測序錯誤峰。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM