使用 gffread 提取基因組序列信息


需求:提取 1 號染色體的 21856782-21856982 和 43942666-43942866 區間的 fa 序列;
需要准備的test.gff3文件如下所示,第一列是染色體號,第二列和第三列的內容隨意,第四列和第五列是提取的開始位置和終止位置,第六列和第八列內容隨意,第七列是基因組的正負鏈,第九列序列的信息,第九列必須有Parent=, ;ID=, ;gene_id=信息,不然序列提取不出來。分隔符為tab:

chr1    gene     transcript      21856782  21856982  .       +       .       Parent=ENST0000001234.1;ID=ENST0000001234.1;gene_id=ENST0000001234.1
chr1    gene     transcript      43942666  43942866  .       +       .       Parent=ENST00000567890.1;ID=ENST00000567890.1;gene_id=ENST00000567890.1

另外還需要基因組文件GRCh38.primary_assembly.genome.fa, 如下所示:

准備好以上兩個文件后,用命令gffread -w test.fa -g GRCh38.primary_assembly.genome.fa test.gff3即可獲取需要的序列。序列存儲在test.fa文件中。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM