統計fasta序列條數

本文轉載自查看原文 2019-02-22 21:30 678

1.統計大於號開始的行數或seqkit 工具

# 通過搜索>的數量
grep -c '^>' myFasta.fasta
1397492
#seqkit統計提取，速度也是很快的
seqkit stats t.fa -T | grep -v file | cut -f 4
1397492
# 統計 1-100bp 范圍長的序列數
cat t.fa | seqkit seq -m 1 -M 100 | seqkit stat -T | grep -v file | cut -f 4

Total sequence length 5,759,798,599
Total ungapped length 5,759,798,599
Number of contigs 1,397,492
Contig N50 9,587
Contig L50 174,483
Total number of chromosomes and plasmids 0
Number of component sequences (WGS or clone) 1,397,492

2.fastq序列條數統計

壓縮格式解壓，統計行數除以4

# 通常以fastq.gz格式壓縮
zcat  input.fastq.gz | awk 'NR%4==2{c++} END{print c}'

# 推薦下面的方法 pigz 會比gzip快10倍
pigz -dc input.fastq.gz | awk 'NR%4==2{c++} END{print c}'

# 如果不是壓縮格式
cat input.fastq | awk 'NR%4==2{c++} END{print c}'

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 統計 fasta 文件序列長度及 GC 含量 FASTA/Q序列處理神器---seqkit sql表統計及分頁統計總數與條數 mysql count統計多列值相同的條數蛋白質序列位置特異性矩陣(PSSM)的獲取的准備工作：fasta序列的處理 mysql根據分組和條件查詢以后如何統計記錄的條數 MySQL 分組之后如何統計記錄條數 group by 之后的 count() 統計oracle分區表各個分區的數據條數 perl練習——FASTA格式文件中序列GC含量計算&perl數組排序如何獲得下標或者鍵 Python - 如何統計序列中元素出現的頻次