如何根據fasta快速統計基因組大小及其各染色體長度?


基因組長度

利用seqkit統計長度

seqkit stat test.fa

結果如下:

file      format  type  num_seqs      sum_len  min_len      avg_len     max_len
test.fa  FASTA   DNA        149  396,098,845   10,246  2,658,381.5  44,776,151

sum_len總長度

各條染色體

利用pyfaidx

pip install pyfaidx
faidx test.fa -i chromsizes > test.size

或者利用samtools建立的索引

samtools faidx test.fa | cut -f1,2 > size

結果

Chr3	39460439
Chr10	25306509
Chr4	36012661
Chr11	31788916
Chr7	30689911
Chr9	23252223
Chr1	44776151
Chr8	30494550
Chr5	31364062
Chr6	32851673
Chr2	36966474
Ctg22	50000
Ctg16	14288
Ctg21	238256
Ctg20	99285
Ctg23	38357

這里把gap也算進去了。如果不想統計,就自己寫個腳本吧。

https://pypi.org/project/pyfaidx/


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM