0. 基本參數
基因組大小:G
Read讀長:L
總Read條數:n_r
1. 鹼基深度分布
單條Read測序覆蓋到某一個鹼基的概率:L/G
因為L/G很小,n_r很大,每個鹼基覆蓋深度服從泊松分布。
則每個鹼基的覆蓋深度的期望為:d_n=(L/G)*n_r
2. K-mer深度分布
假設基因組對K是unique的,可以得到G個不同的K-mer。
單條Read測序覆蓋某個K-mer的概率:(L-K+1)/G
同樣因為(L-K+1)/G很小,n_r很大,每個K-mer的覆蓋深度服從泊松分布。
則每個K-mer的覆蓋深度的期望為:d_k=((L-K+1)/G)*n_r
3. 通過K-mer分布估計基因組大小
可知總K-mer個數:n_k=(L-K+1)*n_r
通過統計K-mer分布可知K-mer深度期望:d_k=((L-K+1)/G)*n_r
則基因組大小:G=n_k/d_k
4. 鹼基深度分布與K-mer深度分布的關系
d_n/d_k=L/(L-K+1)
5. K-mer深度分析工具
軟件:KmerFreq_AR_v2.0
來源:SOAPdenovo2工具包,ftp://public.genomics.org.cn/BGI/SOAPdenovo2
命令: ./KmerFreq_AR_v2.0 -k 17 -t 4 -c -1 -p test test_read.lst >kmerfreq.cout 2>kmerfreq.cerr
6. 常見K-mer分布
- 正常
- 高雜合
- 高重復
最左出現的為測序錯誤峰。