統計fasta序列條數


1.統計大於號開始的行數或seqkit 工具

# 通過搜索>的數量
grep -c '^>' myFasta.fasta
1397492
#seqkit統計提取,速度也是很快的
seqkit stats t.fa -T | grep -v file | cut -f 4
1397492
# 統計 1-100bp 范圍長的序列數
cat t.fa | seqkit seq -m 1 -M 100 | seqkit stat -T | grep -v file | cut -f 4

Total sequence length 5,759,798,599
Total ungapped length 5,759,798,599
Number of contigs 1,397,492
Contig N50 9,587
Contig L50 174,483
Total number of chromosomes and plasmids 0
Number of component sequences (WGS or clone) 1,397,492

2.fastq序列條數統計

壓縮格式解壓,統計行數除以4

# 通常以fastq.gz格式壓縮
zcat  input.fastq.gz | awk 'NR%4==2{c++} END{print c}'

# 推薦下面的方法 pigz 會比gzip快10倍
pigz -dc input.fastq.gz | awk 'NR%4==2{c++} END{print c}'

# 如果不是壓縮格式
cat input.fastq | awk 'NR%4==2{c++} END{print c}'


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM