原文:使用 gffread 提取基因组序列信息

需求:提取 号染色体的 和 区间的 fa 序列 需要准备的test.gff 文件如下所示,第一列是染色体号,第二列和第三列的内容随意,第四列和第五列是提取的开始位置和终止位置,第六列和第八列内容随意,第七列是基因组的正负链,第九列序列的信息,第九列必须有Parent , ID , gene id 信息,不然序列提取不出来。分隔符为tab: 另外还需要基因组文件GRCh .primary assem ...

2022-01-10 16:03 0 1401 推荐指数:

查看详情

mVISTA 多序列比对叶绿体基因组

mVISTA可对2个或者多个DNA序列进行比较,可以对比对结果进行可视化。 详情请大力戳这里 0 输入文件说明 mVISTA 需要输入的文件有如下几类 必须文件 邮箱 fasta格式序列文件(或者GENBANK identifier) 上传文件不得> 10 Mb ...

Tue Jan 26 17:41:00 CST 2021 0 752
基因组序列注释 (基因结构预测)

基因组组装完后需要对基因组序列进行注释。注释前首先得构建基因模型,有三种策略: 同源预测(homology-based prediction):有一些基因蛋白在相近物种间的保守型高,所以可以使用已有的高质量近缘物种注释信息通过序列联配的方式确定外显子边界和剪切位点 基于转录预测 ...

Sun Dec 22 01:29:00 CST 2019 0 4736
hg19基因组 | 功能区域 | 位置提取

如何获取hg19的CDS、UTR、intergenic、intron等的位置信息? 参考手册: Hg19 regions for Intergenic, Promoters, Enhancer, Exon, Intron, 5-UTR, 3-UTR 怎么从gtf文件获取genome ...

Tue Nov 19 23:39:00 CST 2019 0 512
基因组注释

基因组注释主要包括四个研究方向:重复序列的识别;非编码RNA的预测;基因结构预测和基因功能注释。我们将分别对这四个领域进行阐述。 1 重复序列的识别。 1.1 重复序列的研究背景和意义:重复序列可分为串联重复序列(Tendam repeat)和散在重复序列 ...

Mon Jan 11 19:48:00 CST 2016 0 4001
参考基因组

参考基因组版本命名参考基因组联盟(Genome Reference Consortium),它是由 NCBI,EBI,桑格研究所等机构组成。GRC 利用最佳的技术装配,纠正,增加基因组序列,以此作为在生信分析领域作为参考的基因组。人基因组官名叫 GRCh38 (Genome ...

Sat Jun 12 20:52:00 CST 2021 0 1267
genome repeat sequence | 基因组重复序列

基因组里的小写字母的序列就是soft masking,也就是被标记的重复序列。 怎么把重复序列提取出来,保存为bed文件? 参考:Uppercase vs lowercase letters in reference genome ...

Mon Mar 26 08:00:00 CST 2018 0 935
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM