原文:統計 fastq 文件 q20 , GC 含量的軟件

二代測序的分析過程中,經常需要統計原始下機數據的數據量,看數據量是否符合要求 另外還需要統計q ,q ,GC含量等反應測序質量的指標 在kseq.h 的基礎上稍加改造,就可以實現從fastq 文件中統計這些指標的功能,而且速度非常的快 源代碼保存為 parse.c , 然后編譯 gcc o fastq stat parse.c lz ...

2017-02-14 14:56 6 2483 推薦指數:

查看詳情

統計 fasta 文件序列長度及 GC 含量

注:該腳本適用於序列不斷開的情況 可用一下命令將折行的序列合並為一行 運行腳本 升級版,輸入文件是 fasta 格式即可。用 Bio 中的 Seq.IO 解析 fasta 文件, 用 python 的內置函數 count() 的計算速度更快。 ...

Sat Jan 14 11:25:00 CST 2017 0 3357
測序中Q20 Q30 Q40

你能給別人講清楚這個概念嗎? 二代測序中,每測一個鹼基會給出一個相應的質量值,這個質量值是衡量測序准確度的。鹼基的質量值13,錯誤率為5%,20的錯誤率為1%,30的錯誤率為0.1%。行業中Q20Q30則表示質量值≧20或30的鹼基所占百分比。例如一共測了1G的數據量,其中有0.9G的鹼基 ...

Mon Jan 09 22:40:00 CST 2017 0 15255
文件格式——fastq格式

fastQ格式 FASTQ是一種存儲了生物序列(通常是核酸序列)以及相應的質量評價的文本格式. 他們都是以ASCII編碼的。現在幾乎是高通量測序的標准格式。NCBI Short Read Archive也是這格式,多了一些描述性詞匯而已。 基本格式 包含四行,第一行由'@'開始,后面 ...

Wed May 03 19:36:00 CST 2017 0 1266
FASTQ 數據質量統計工具

主流工具: FastQC fqcheck readfq 拿到測序數據的第一步就是做質量控制 fqcheck之后得到的結果: 它會統計每條reads,按read 1-100位點計算每個位置的ACGTN含量,以及0-41質量值的個數 最終會得到整體的錯誤率,GCQ20 ...

Mon Feb 20 19:56:00 CST 2017 0 4684
【Python小試】判斷一條序列GC含量高低

題目: 隨便給定一條序列,如果GC含量超過65%,則認為高。 編程: 測試 解析 Python提供了__future__模塊,把下一個新版本的特性導入到當前版本,於是我們就可以在當前版本中測試一些新版本的特性。 主要解決python2版本中和python3不同的一些問題 ...

Tue Apr 21 07:23:00 CST 2020 0 611
 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM