課程筆記


1.如何下載基因組gff3文件

https://itol.embl.de/

ensembl plant -download-

2.提取cds序列

需要兩個文件

①基因組序列文件:序列

②基因結構注釋文件gff3:序列對應的結構

TBtools:GXF Sequences Extracter

首先把gff文件拖進去,初始化,選擇CDS、parent,拖進去基因組序列文件,輸入輸出文件位置。

會形成2個文件,一個是格式化的序列TBtools.fa,一個是索引TBtools.fa.fai

 

 

 

 

 3.查看CDS有多少個基因:Fasta Tools-Fasta Stats,然后把cds文件拖進來。

 

 

 

 預覽一下:big file previewer-big text preview :以ATG開始,以TAG/TGA中止。

 

 4.把cds翻譯成蛋白:拖進去fasta格式的cds,輸入蛋白輸出路徑。

 

 

 

 5.簡化蛋白ID

基因家族分析

1.PlantTFDB網站:轉錄因子數據庫。

 

 

 2.Tair-browse-gene family下載基因家族序列

利用tair下載擬南芥的ERF蛋白序列,把122序列號復制到①中

 

 

復制基因到下面的框-直接get sequence,復制序列到txt文檔,打開fasta stats查看。

 

 3.blast:two sequence file

文件:

①122個擬南芥的蛋白序列

②目標物種的蛋白序列:用cds翻譯的蛋白序列

③輸入.tab文件

 

 

 

用excel打開,選擇第二列序列復制到upsetprot去冗余,雙擊柱狀圖,復制序列名稱。

 

 提取ID的蛋白序列

 

 

 

 NCBI-Protein-Blast

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM