1.如何下載基因組gff3文件
https://itol.embl.de/
ensembl plant -download-
2.提取cds序列
需要兩個文件
①基因組序列文件:序列
②基因結構注釋文件gff3:序列對應的結構
TBtools:GXF Sequences Extracter
首先把gff文件拖進去,初始化,選擇CDS、parent,拖進去基因組序列文件,輸入輸出文件位置。
會形成2個文件,一個是格式化的序列TBtools.fa,一個是索引TBtools.fa.fai
3.查看CDS有多少個基因:Fasta Tools-Fasta Stats,然后把cds文件拖進來。
預覽一下:big file previewer-big text preview :以ATG開始,以TAG/TGA中止。
4.把cds翻譯成蛋白:拖進去fasta格式的cds,輸入蛋白輸出路徑。
5.簡化蛋白ID
基因家族分析
1.PlantTFDB網站:轉錄因子數據庫。
2.Tair-browse-gene family下載基因家族序列
利用tair下載擬南芥的ERF蛋白序列,把122序列號復制到①中
復制基因到下面的框-直接get sequence,復制序列到txt文檔,打開fasta stats查看。
3.blast:two sequence file
文件:
①122個擬南芥的蛋白序列
②目標物種的蛋白序列:用cds翻譯的蛋白序列
③輸入.tab文件
用excel打開,選擇第二列序列復制到upsetprot去冗余,雙擊柱狀圖,復制序列名稱。
提取ID的蛋白序列
NCBI-Protein-Blast