目錄 失敗嘗試一:使用cpanm 失敗嘗試二:使用CPAN 成功嘗試:直接conda安裝bioperl 沒有嘗試:源碼安裝bioperl 生信軟件繞不過Perl,Perl繞不過Bioperl。而Bioperl的安裝總讓人頭大,尤其是對普通用戶。以下錯誤 ...
測序數據中經常會接觸到fastq格式的文件,比如說拿到fastq格式的原始數據后希望查看測序鹼基的質量並去除低質量鹼基。一般而言大家都是用現有的工具,比如說fastqc這個Java寫的小程序,確實很好用,運行速度快,檢查的項目也多。有時候我們也需要對這些數據進行個性化的分析,那么這個時候這些小工具就不能勝任了,需要我們自己寫程序 腳本 來處理。本人目前才疏學淺,因此只有一下三種方案: .完全自己 ...
2017-07-03 00:02 0 2332 推薦指數:
目錄 失敗嘗試一:使用cpanm 失敗嘗試二:使用CPAN 成功嘗試:直接conda安裝bioperl 沒有嘗試:源碼安裝bioperl 生信軟件繞不過Perl,Perl繞不過Bioperl。而Bioperl的安裝總讓人頭大,尤其是對普通用戶。以下錯誤 ...
fastQ格式 FASTQ是一種存儲了生物序列(通常是核酸序列)以及相應的質量評價的文本格式. 他們都是以ASCII編碼的。現在幾乎是高通量測序的標准格式。NCBI Short Read Archive也是這格式,多了一些描述性詞匯而已。 基本格式 包含四行,第一行由'@'開始,后面 ...
@HWUSI-EAS100R:6:73:941:1973#0/1 GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTT ...
1.利用Linux命令:awk 2.用法如下: awk '{if(NR%4 == 1){print ">" substr($0, 2)}}{if(NR%4 == 2){print}}' fastq > fasta 3.上述用法注意事項: fastq文件必須是解壓格式 ...
Biopython1.序列賦值 轉錄(反轉錄) 翻譯 反向互補2.讀取序列文件,識別序列的屬性信息。SeqRecord提供序列及其注釋的容器屬性:seq :一條生物序列id:基本ID,標識這條序列name:常用分子的名稱description:序列分子的描述letter_annotation ...
Biopython 1.序列賦值 轉錄(反轉錄) 翻譯 反向互補2.讀取序列文件,識別序列的屬性信息。 SeqRecord提供序列及其注釋的容器屬性: seq :一條生物序列id:基本ID,標識這條序列name:常用分子的名稱description:序列分子的描述 ...
二代測序的分析過程中,經常需要統計原始下機數據的數據量,看數據量是否符合要求;另外還需要統計q20,q30,GC含量等反應測序質量的指標; 在kseq.h 的基礎上稍加改造,就可以實現從fastq 文件中統計這些指標的功能,而且速度非常的快 源代碼保存為 parse.c ...
1、FASTA文件的格式 在生物信息學中,FASTA格式(又稱為Pearson格式)是一種基於文本的、用於表示核苷酸序列或氨基酸序列的格式。在這種格式中鹼基對或氨基酸用單個字母來表示,且允許在序列前添加序列名及注釋。 FASTA文件以序列表示和序列作為一個基本單元,各行記錄信息如下: 第一 ...