注:該腳本適用於序列不斷開的情況 可用一下命令將折行的序列合並為一行 運行腳本 升級版,輸入文件是 fasta 格式即可。用 Bio 中的 Seq.IO 解析 fasta 文件, 用 python 的內置函數 count() 的計算速度更快。 ...
二代測序的分析過程中,經常需要統計原始下機數據的數據量,看數據量是否符合要求 另外還需要統計q ,q ,GC含量等反應測序質量的指標 在kseq.h 的基礎上稍加改造,就可以實現從fastq 文件中統計這些指標的功能,而且速度非常的快 源代碼保存為 parse.c , 然后編譯 gcc o fastq stat parse.c lz ...
2017-02-14 14:56 6 2483 推薦指數:
注:該腳本適用於序列不斷開的情況 可用一下命令將折行的序列合並為一行 運行腳本 升級版,輸入文件是 fasta 格式即可。用 Bio 中的 Seq.IO 解析 fasta 文件, 用 python 的內置函數 count() 的計算速度更快。 ...
你能給別人講清楚這個概念嗎? 二代測序中,每測一個鹼基會給出一個相應的質量值,這個質量值是衡量測序准確度的。鹼基的質量值13,錯誤率為5%,20的錯誤率為1%,30的錯誤率為0.1%。行業中Q20與Q30則表示質量值≧20或30的鹼基所占百分比。例如一共測了1G的數據量,其中有0.9G的鹼基 ...
Reads Total Bases N Bases Q20 Q30 GC 2. ...
# 用於fasta格式文件的鹼基數目和GC含量的統計 grep -v '>' input.fa| perl -ne '{$count_A=$count_A+($_=~tr/A//);$count_T=$count_T+($_=~tr/T//);$count_G=$count_G+ ...
fastQ格式 FASTQ是一種存儲了生物序列(通常是核酸序列)以及相應的質量評價的文本格式. 他們都是以ASCII編碼的。現在幾乎是高通量測序的標准格式。NCBI Short Read Archive也是這格式,多了一些描述性詞匯而已。 基本格式 包含四行,第一行由'@'開始,后面 ...
主流工具: FastQC fqcheck readfq 拿到測序數據的第一步就是做質量控制 fqcheck之后得到的結果: 它會統計每條reads,按read 1-100位點計算每個位置的ACGTN含量,以及0-41質量值的個數 最終會得到整體的錯誤率,GC,Q20 ...
@HWUSI-EAS100R:6:73:941:1973#0/1 GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTT ...
題目: 隨便給定一條序列,如果GC含量超過65%,則認為高。 編程: 測試 解析 Python提供了__future__模塊,把下一個新版本的特性導入到當前版本,於是我們就可以在當前版本中測試一些新版本的特性。 主要解決python2版本中和python3不同的一些問題 ...