【豆科基因組】綠豆Mungbean, Vigna radiata蘇綠基因組預印


一、來源

High-quality genome assembly, annotation and evolutionary analysis of the mungbean (Vigna radiata) genome. November 2020.
DOI:10.22541/au.160587196.63922177/v1

單位:江蘇農科院

主要結果:

  • 通過Nanopore+Illumina+HiC組裝蘇綠基因組,組裝大小473.67,contig N50=11.3Mb,scaffold N50=42.4。
  • 52.8%的重復序列,LTRs占33.9%。
  • 預測了33924個基因,95.7%注釋率。
  • 綠豆與其關系最近的小豆分化時間約11.66萬年前,綠豆特有基因家族277個,其中18個正選擇基因。

綠豆研究進展:

  • 中綠VC1973A基因組草圖
  • 葉發育
  • 白粉病抗性powdery mildew resistance
  • 豆象抗性bruchid resistance
  • 耐鹽 salinity tolerance
  • 基因組多樣性和GWAS(GBS),種皮光澤

二、結果

測序組裝

蘇綠一號,測序約122.9Gb數據,深度259.5X,其中Oxford Nanopore (142.4X)。
組裝先使用canu糾正reads,再用wtdbg2組裝。原始組裝結果用Racon對nanopore reads 進行三輪糾錯,使用Pilon利用二代測序數據進行3輪糾錯。組裝大小473.67 Mb,359 contigs, N50 =11.32 Mb。
HiC-Pro利用唯一比對reads鑒定有效和無效互作,使用LACHESIS進行聚類、排序和定向,最后掛載11條染色體。基因組大小470.45Mb(掛載率99.32%,組裝率87.8%)。
image.png

image.png

a-e 代表 the distribution of FPKM, gene density, density of Copia
retrotransposable elements, density of Gypsy retrotransposable elements and GC density, respectively, with
densities calculated in 200-kb windows.
f 代表 syntenic blocks.

組裝評價

三方面評估:

  • 組裝連續性和覆蓋度。二代測序reads比對99.07%;CEGMA評估連續性449個(98.03%)核心保守基因。
  • 完整性。BUSCO評估,92.43%。
  • HiC聚類熱圖。

編碼基因預測

三個來源:

  • ab initio :Genscan, Augustus (v2.4), GlimmerHMM (v3.0.4), GeneID (v1.4) and SNAP
  • homology-based:GeMoMa (v1.3.1)
  • unigene-based prediction :Hisat (v2.0.4) and
    Stringtie (v1.2.3), and PASA (v2.0.2)組裝,TransDecoder (v2.0) and GeneMarkST(v5.1)預測。

EVM整合,PASA優化。共預測33,924個蛋白編碼基因,20,446個三種證據都有。

基因功能注釋

BLAST (v2.2.31) against NR, KOG,
GO, KEGG and TrEMBL database, performed KEGG pathway。
共32,470個基因注釋(95.71%)。
InterProScan(包括Prosite, PRINTS, PFAM, ProDom, Smart, TIGRFAMs, SignlP, Trans memberane等)進行motif注釋,共注釋2,765 motifs and 35,154 domains。

非編碼RNA注釋

microRNA, rRNA使用Rfam數據庫;
tRNA使用tRNAscan-SE。
最后鑒定86 miRNA, 352 rRNA and 653 tRNA belonging to 23, 4 and 22 families respectively。

假基因預測

假基因序列與功能基因類似,但由於突變丟失了功能。
使用BLAT將預測蛋白序列尋找可能的同源基因序列,再用GeneWise尋找不成熟的終止密碼和基因序列上的移碼突變,從而獲得假基因,共4320個,平均長度2237bp。

重復序列注釋

使用Repbase庫和從頭預測的重復庫(采用LTR FINDER和RepeatModeler),數據庫鑒定采用PASTEClassi er,合並以上兩個重復庫作為最終庫。RepeatMasker注釋。共52.83%,重復元件長度46.4 Kb - 215.1 Mb。大部分是LTR(33.92%),包括56.6% Gypsy LTRs, 39.77% Copia LTRs and 3.63% other types of LTRs。

使用MISA檢測簡單串聯重復(SSRs),共224,409 SSRs (136,045 mono-, 56,033 di-, 28,959
tri-, 1,977 tetra-, 1,098 penta-, and 297 hexa-nucleotide repeats)。全長3,252,656 bp(~0.69%)

進化分析和分歧時間估計

從綠豆和10個近緣物種(Vigna radiata , cowpea, common bean, soybean, Vigna angularis , Lablab purpureus ,Medicago
truncatula , Lotus japonicus , Vigna subterranea and Arabidopsis thaliana)中OrthoMCL軟件鑒定單拷貝直系同源基因,基於該數據集采用MUSCLE+MEGA+PHYML構樹。

使用Mcmctree通過最大似然樹估計分歧時間,並用化石證據矯正。
image.png

image.png

全基因組復制

為研究綠豆進化,將之與其他4種雙子葉植物(Vigna radiata, Arabidopsis thaliana(Arabidopsis)比較,基於兩物種間或物種內的成對同源基因計算4DTv (4-fold degenerate synonymous sites of the third codons)。

Vigna radiata vs Arabidopsis thaliana有分化峰值,Vigna radiata vs common bean存在低峰。表明綠豆和擬南芥分化的時間比綠豆和普通豆(菜豆)分化更早。
image.png

LTR插入時間估計

采用突變率來估計LTR插入時間。蘇綠中的LTR插入事件不是很活躍。
image.png

正選擇基因

通過評估單拷貝基因的Ka/Ks來檢測正選擇基因。共檢測到18個基因。GO富集在membrane-enclosed lumen 和cell junction。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM