課程筆記

本文轉載自查看原文 2021-12-11 18:30 100 基因家族分析

1.如何下載基因組gff3文件

https://itol.embl.de/

ensembl plant -download-

2.提取cds序列

需要兩個文件

①基因組序列文件:序列

②基因結構注釋文件gff3：序列對應的結構

TBtools:GXF Sequences Extracter

首先把gff文件拖進去，初始化，選擇CDS、parent,拖進去基因組序列文件，輸入輸出文件位置。

會形成2個文件，一個是格式化的序列TBtools.fa，一個是索引TBtools.fa.fai

3.查看CDS有多少個基因：Fasta Tools-Fasta Stats,然后把cds文件拖進來。

預覽一下：big file previewer-big text preview :以ATG開始，以TAG/TGA中止。

4.把cds翻譯成蛋白：拖進去fasta格式的cds,輸入蛋白輸出路徑。

5.簡化蛋白ID

基因家族分析

1.PlantTFDB網站：轉錄因子數據庫。

2.Tair-browse-gene family下載基因家族序列

利用tair下載擬南芥的ERF蛋白序列，把122序列號復制到①中

復制基因到下面的框-直接get sequence,復制序列到txt文檔，打開fasta stats查看。

3.blast：two sequence file

文件：

①122個擬南芥的蛋白序列

②目標物種的蛋白序列：用cds翻譯的蛋白序列

③輸入.tab文件

用excel打開，選擇第二列序列復制到upsetprot去冗余,雙擊柱狀圖，復制序列名稱。

提取ID的蛋白序列

NCBI-Protein-Blast

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 《電路》課程筆記（三）《電路》課程筆記（二） Siebel課程筆記《電路》課程筆記（一）經驗管理課程筆記① ScrumMaster認證（CSM）課程筆記 AndrewNG Deep learning課程筆記前端基礎--jQuery（pink老師課程筆記）《Neural Networks and Deep Learning》課程筆記模式識別課程筆記（一）