三代全長轉錄組測序和組裝


這些三代全長轉錄組測序的相關問題,可以幫到愛學習的我哦

 

1.什么是三代全長轉錄組測序

三代全長轉錄組測序,即利用PacBio三代測序平台對某一物種的mRNA進行測序研究。它以平均超長讀長10-15kb的優勢、結合多片段文庫篩選技術,實現了無需拼接的轉錄本分析,克服了傳統二代轉錄組Unigene拼接較短、轉錄本結構不完整的缺陷,也由於其可直接獲得單個RNA分子從5’端到3’端的高質量全部轉錄組信息而得名。

2.為什么要做全長轉錄組測序?

轉錄本非常多樣和復雜,絕大多數基因不符合“一基因一轉錄本”的模式,這些基因往往存在多種剪切形式。通過二代測序,我們可以很准確地進行基因的表達及定量的研究,但是受限於讀長的限制,不能得到全長轉錄本的信息。

基於二代測序平台的轉錄組產品,首先是把RNA打成小的短片斷進行測序,然后再通過生物信息的方法進行拼接,將拼接后的序列交付給客戶。但是基於二代測序平台的轉錄組,由於讀長的限制(PE150),在轉錄本組裝的過程中會存在較多的嵌合體,並且不能准確地得到完整轉錄本的信息,從而會大大降低表達量、可變剪接、基因融合等分析的准確性。圖1. 二代和三代轉錄組測序原理及讀長對比

目前基於PacBio的單分子實時測序技術,目前平均讀長已經達到10Kb以上,最長可達80Kb,轉錄組測序不再需要組裝,就可以直接得到全長轉錄本的信息。

3.二代與三代轉錄組相比兩者分別有哪些優劣勢?三代轉錄組具體優勢可否說明?

表1. 二代和三代轉錄組測序優劣勢對比

 

從上述對比表格可看出,兩種轉錄組測序技術互有優劣勢,所以在給各位老師在設計課題時,建議老師二+三代轉錄組測序技術同時使用,保證結構准確性、序列完整性及序列表達量准確性,達到數據的最優利用效果以及性價比最高。

三代轉錄組具體優勢說明如下:

 

a.超長讀長(平均讀長10-15K,最長讀長80K),可一次將真核生物的全長轉錄本信息讀取完整;

b.無需進行片段打斷和拼接,避免出現組裝錯誤;

c.基於全長轉錄組測序得到的完整准確的轉錄本信息,結合二代數據,方便識別特異性表達且做更加精確的基因和轉錄本表達定量。

d.針對有參考基因組的物種,全長轉錄組信息可以糾正基因組的錯誤組裝、更准確地發現新的轉錄本和基因、分析基因融合事件等。

e.無需鏈特異性建庫,全長轉錄組測序可直接獲取正義鏈、反義鏈及部分LncRNA信息。

圖2. 三代全長轉錄組測序優勢概覽

4.哪些物種適合做三代全長轉錄組測序?獲得這些全長mRNA信息有何用處?

無參考基因組物種和有參考基因組物種均適用。

a.對於沒有參考基因組的物種

由於基因組測序成本高,缺乏基因組參考信息在很大程度上限制了對物種的深入研究。通過三代全長轉錄組測序來構建物種Unigene庫,無需進行序列組裝,就可以獲得該物種轉錄組水平的參考序列(轉錄組水平的參考基因組),為后續研究提供很好的遺傳信息基礎。

獲得這些全長轉錄本信息,可以更准確地進行CDS和SSR分析。如果有同一批樣本的二代數據,不但可以提高三代測序數據的利用率,同時可以對這些全長的轉錄本進行更精准的定量分析。

b.對於有不完善參考基因組的物種

參考基因組組裝不完善是普遍存在的問題,特別是多倍體這類物種,給科研工作帶來了極大阻礙。參考基因組組裝不完善,用二代測序會導致reads比對率低,基因表達定量不准確的問題。用全長轉錄組測序技術可直接獲得轉錄本全長序列,再結合二代測序,會使定量更准確,數據利用率更高,同時基於全長轉錄組數據,可以優化基因結構,進而輔助基因組組裝和注釋

c.對於具有較好參考基因組的物種

利用三代全長轉錄組測序獲得的信息是生物體內直接存在的,比基於參考基因組預測到的轉錄組信息更准確,同時也可准確鑒定基因的可變剪接、融合基因、基因家族和非編碼RNA等信息

如果有同一樣本的二代數據,不但可以提高三代數據的利用率,同時還可以深入研究某基因可變剪接形成的不同轉錄本的表達差異可以確定不同發育階段或不同處理情況下,該基因中高表達轉錄本以及低表達轉錄本。不同樣品的融合基因和等位基因差異,也同樣可以分析。

需要注意的是全長轉錄組測序只能得到轉錄本全長序列,不可進行基因表達定量

5. 全長轉錄組測序那么貴,如何更大程度上降低測序成本?

由於轉錄組信息呈動態變化且存在組織差異,單一組織得到的全長轉錄本對該物種其他部位組織可能不是很全面或不太適用,所以用一個物種不同部位組織混樣進行高深度測序(針對不同要求及目的,推薦8G、10G和12G等),會得到比較理想的參考轉錄本庫信息,也是降低測序成本的理想方法。

6. 三代全長轉錄組測序如何選擇測序樣本?

總體原則是根據研究目的進行選擇,舉例說明如下:

a.單個三代轉錄組項目:

 如果想要獲得該物種相對全面的轉錄本信息,建議對該物種的不同部位混合取樣;

② 如果只想研究某個特定的組織部位,建議在不同發育時期對特定組織部位進行取樣

b. 二+三代轉錄組混合策略項目:

三代轉錄組與二代轉錄組測序取樣部位或時期相對應的同一批樣品,等量RNA混樣測序;

c. 多個三代轉錄組樣品項目:

如果想要研究某物種脅迫處理(其他生物或非生物脅迫都適用)前后變化,建議取對照和處理組(至少兩個樣品)進行對比分析;

① 全長轉錄組混樣測序為了保證數據來源的均一性,一定要等量RNA混合測序,而非等量樣品混合抽取RNA再測序。

② 隨着三代轉錄組測序成本逐步下降,多個三代轉錄組樣品測序的常規時代也即將到來。

7. 全長轉錄本數據量和文庫類型如何確定?

推薦數據量大小需依據物種的復雜程度、基因大小及研究目的來確定。根據已有的項目經驗、數據庫信息及文章中報道,我們詳細推薦如下:

表2. 推薦性全長轉錄本測序數據量和文庫類型

 

注:對於全長轉錄組測序,數據量並不是固定的,針對同一物種同一研究目的,測序數據量越多,檢測到的全長轉錄本也會越全面

8. 全長轉錄組測序為什么要建3-4個分段文庫?不同文庫數據產出比例如何?

構建分段文庫,是由PacBio平台測序原理所決定。在三代轉錄組測序過程中,構建好的全長文庫需要loading到測序小孔——零模波導孔(ZMWs)中,由於mRNA長度不同,在loading的過程中會出現一定的loading bias,即測序小孔會優先被長度較短的片段占據,每個測序小孔只能容納一個文庫分子,而大部分長片段則沒有測到。因此為盡量降低loading bias的影響,需要根據測序物種mRNA的長度進行分段,使一個文庫中的序列長度控制在一個較窄的范圍內。故構建分級文庫越多,也會得到更全面的全長轉錄本。

全長轉錄組測序一般推薦至少構建三種文庫類型,1-2Kb、2-3Kb和≥3Kb文庫,數據產出比例為3:2:2。(例如:測8G的數據量,三個文庫分別測3G、3G和2G,也可以根據不同物種調整不同文庫的數據量);構建1-2Kb、2-3Kb、3-6Kb、≥6Kb四個文庫(例如:測12G的數據量,四個文庫分別測4G、4G,2G和2G。數據量分布一般是2:2:1:1或3:2:2:1。

注:根據甜菜三代全長轉錄組文獻中報道還進一步驗證了一個常識,多數原本轉錄本3'UTR+5'UTR長度>1Kb,所以一般不建議構建<1Kb文庫,但研究目的是為了獲得較為全面的轉錄本時才會建議構建<1Kb或0.5-1Kb文庫

9. 三代全長轉錄組建庫測序的流程是什么?

圖3. 三代轉錄組建庫測序流程簡圖

簡述以上流程:

 

a.全長cDNA合成:使用Clontech SMARTer PCR cDNA Synthesis Kit合成全長的cDNA;

b.片段選擇及PCR擴增:采用BluePippinTM儀器直接進行片段篩選並進行擴增

c.SMRTbell文庫制備:將不同插入片段cDNA加上SMRTbell接頭,並完成文庫構建;

d.測序:文庫進行質控后上機三代平台PacBio測序。

10. 三代全長轉錄組測序的生物信息分析流程是什么?具體有哪些分析內容?

 

圖4. 三代全長轉錄組生物信息分析流程簡圖

表3. 三代全長轉錄組信息分析內容

有參考基因組物種

無參考基因組物種

(1) 原始數據處理及過濾;

(2) 測序數據質量評估;

(3)全長轉錄本判定;

(4)轉錄本聚類校正

(5)與參考基因組序列比對;

(6)全長轉錄本比對注釋;

(7)基因結構優化;

(8)可變剪接鑒定;

(9)新基因預測及CDS預測

(10)LncRNA預測

(11)基因融合鑒定

(1)原始數據處理及過濾;

(2)測序數據質量評估;

(3)全長轉錄本判定;

(4)轉錄本聚類與校正;

(5)全長轉錄本比對注釋;

(6)預測編碼蛋白框(CDS);

(7) SSR預測;

(8) LncRNA預測;

11. 三代全長轉錄組測序獲得的Clean Reads中,全長序列所占比例是多少?

全長序列所占比例與測序量和建庫長度以及表達量有關。沒有准確的標准,一般全長比例會占到50%左右(與目前文獻報道及官網測試數據水平一致)。

 

 

pacbio 三代全長轉錄組數據分析流程 Iso-Seq 3

 

Iso-Seq 建庫

Iso-Seq的建庫方案有如下三類:

  1. 整個庫都是一個樣品的全長轉錄組,不需要加barcode區分樣品
  2. 不同樣品的全長轉錄組,加上不同barcode ,可以放在一起進行建庫測序
  3. 一些靶向獲得的部分基因也可以進行全長轉錄組的測序

 

Iso-Seq 3進行數據分析

Iso-Seq3 進行全長轉錄組的分析,運行流程如下圖所示:

 

1 ccs(Circular Consensus Calling)
ccs 獲取一致性的序列,要求每一條測序的reads至少有一端含有引物序列。

ccs test.subreads.bam ccs.bam  --noPolish --minPasses 1 

2 測序引物和barcode的去除
這一步是采用lima 來完成的,這個軟件也是官方最新開發出來的程序,速度和准確度都較以往的算法有了很大的提升。還能夠基於barcode序列區分不同的樣品,

lima ccs.bam barcoded_primers.fasta  demux.ccs.bam --isoseq --no-pbi

3 聚類(cluster)
聚類采用IsoSeq3 軟件來完成,這一步會首先將ployA尾巴去除掉,並將連環結構去除掉,再對相似的序列進行聚類,最好形成全長的reads。

isoseq3 cluster demux.primer_5p--primer_3p.bam  unpolished.bam --verbose

4 拋光(polish)
這一步主要是將聚類的轉錄本,合並成一個完整的一致性序列。

isoseq3 polish -j 16 unpolished.bam  test.subreads.bam   polished.bam

三代測序技術概述:

  1. PacBio和Oxford Nanopore測序的原理
  2. 三代測序的特點和應用
  3. 三代測序在轉錄組研究的優勢和案例分享

 

三代測序基本分析流程

 

  1. 原始測序序列去除接頭和錯誤序列
  2. 提取環形一致序列讀長(CCS reads)
  3. CCS reads分類(包括全長和非全長CCS reads)
  4. CCS reads聚類(根據CCS reads序列的相似性)獲得最終的轉錄本集合
  5. 最終轉錄本比對回基因組
  6. 轉錄本定量和可變剪接分析

 

PacBio測序平台基於其獨特的單分子實時測序技術(Single Molecule Real Time,SMRT),通過其超長讀長,均一的覆蓋度,高度的一致性准及確性提供無與倫比的遺傳信息深度解析。

 

用 GMAP/GSNAP軟件進行RNA-seq的alignment

首先需要參考基因組:雖然軟件本身提供了一個hg19的參考基因組,並且已經索引好了Human genome, version hg19 (5.5 GB)(http://research-pub.gene.com/gmap/genomes/hg19.tar.gz) ,但是下載很慢,而且不是對所有版本的GSNAP都適用。所以我這里對我自己的參考基因組進行索引。

gmap_build -D ./ -d  my_hg19.fa
然后取ensemble下載hg19的gtf文件。
然后還需要把自己下載的gtf文件也構建索引,需要兩個步驟
cat my_hg19.gtf |  ~/software/gmap-2011-10-16/util/gtf_splicesites >  my_hg19.splicesites
cat  my_hg19.splicesites   |   iit_store -o my_hg19.gtf.index
 
GMAP最早用於講EST/cDNA序列比對到參考基因組上,可以用於基因組結構注釋。后來高通量測序時代,又開發了GSNAP支持高通量數據比對,這篇文章主要介紹GMAP,畢竟高通量轉錄組數據比對大家更喜歡用STAR, HISTA2等軟件。

軟件安裝

下面是我源碼安裝的代碼

wget http://research-pub.gene.com/gmap/src/gmap-gsnap-2018-07-04.tar.gz
tar xf gmap-gsnap-2018-07-04.tar.gz
cd gmap-2018-07-04/
./configure --prefix=$HOME/opt/biosoft/gmap
make -j 20

軟件使用

如下步驟假設你有一個物種的基因組序列和對應的CDS序列,分別命名為"reference.fa"和"cds.fa"

第一步:構建GMAP/GSNAP索引數據庫

GMAP/GSNAP對FASTA文件中每個記錄下的序列的長度有一定限制, 每一條不能超過4G, 能應付的了大部分物種了。

構建索引分為兩種情況考慮,第一種是一個fasta文件包含所有的序列

~/opt/biosoft/gmap/bin/gmap_build -d reference reference.fa

第二種則是每個染色體的序列都單獨存放在一個文件夾里,比如說你下載人類參考基因組序列解壓后發現有N多個fasta文件, 然后你就想用其中幾條染色體構建索引

~/opt/biosoft/gmap/bin/gmap_build -d reference Chr1.fa Chr2.fa Chr3.fa ...

注: 這里的-d表示數據K庫的名字,默認把索引存放在gmap安裝路徑下的share里,可以用-D更改.此外還有一個參數-k用於設置K-mer的長度, 默認是15, 理論上只有大於4GB基因組才會有兩條一摸一樣的15bp序列(當然是完全隨機情況下)。

第二步:正式比對

建立完索引之后就可以將已有的CDS或者EST序列和參考基因組序列進行比較。

~/opt/biosoft/gmap/bin/gmap -t 10 -d reference -f gff3_gene cds.fa > cds_gene.gff3

其中-t設置線程數, -d表示參考基因組數據庫的名字, 都是常規參數。我比較感興趣的參數是如何將序列輸出成GFF格式. GMAP允許多種格式的輸出,比如說-S只看聯配的總體情況,而-A會顯示每個比對上序列的聯配情況, 還可以輸出蛋白序列(-P)或者是genomic序列(-E). 但是做結構注釋要的gff文件,參數就是-f gff3_gene, -f gff3_match_cdna, -f gff3_match_est

參考文獻

要想對一個軟件有更好的認識,最好還是看看他們文章是怎么說的。

  • GMAP: a genomic mapping and alignment program for mRNA and EST sequences
    Bioinformatics 2005 21:1859-1875 Abstract Full Text, Thomas D. Wu and Colin K. Watanabe
  • Fast and SNP-tolerant detection of complex variants and splicing in short reads
    Bioinformatics 2010 26:873-881 AbstractFull Text, Thomas D. Wu and Serban Nacu

PLEK:轉錄本蛋白編碼潛能預測工具

在之前的文章中,我們介紹過CPC和CNCI這兩款軟件,可以用於預測lncRNA序列。其中CPC基於序列比對的方式,對於注釋信息相對全面的物種分類效果較好,但是運行速度相對較慢,CNCI基於序列的三聯體鹼基組成來區分編碼和非編碼轉錄本,對於注釋信息缺乏的物種,效果也不錯,但是當序列中存在插入缺失時,其分類效果就變得很差

在高通量測序產生的數據中,會存在一定的測序錯誤,雖然比例很低,但是基於這樣的序列組裝得到轉錄本然后去預測lncRNA, 對於CNCI這個軟件而言,就會造成相當大的影響。

為了克服上述問題,需要一款運行速度又快,又可以一定程度上降低測序錯誤影響的lncRNA預測軟件,PLEK軟件就是基於這樣的出發點進行開發的。PLEK軟件通過序列的kmer構成來區分編碼和非編碼轉錄本,不需要通過比對來完成,所以運行速度較快,同時其性能受到測序錯誤的影響的概率較低,比較穩定。

可以看到PLEK的運行速度是最快的。該軟件的源代碼托管在sourceforge上,網址如下

https://sourceforge.net/projects/plek/files/


安裝方式如下

wget https://sourceforge.net/projects/plek/files/PLEK.1.2.tar.gz tar xzvf PLEK.1.2.tar.gz cd PLEK.1.2 python PLEK_setup.py

基本用法如下

python PLEK.py \
-fasta transcript.fa \ -out output \ -thread 10

只需要輸入轉錄本對應的fasta格式的文件就可以了,輸出文件output內容示意如下

第一列代表該轉錄本為coding還是non-coding, 第二列為打分值,打分值大於0為coding, 小於零為non-coding, 第三列為fasta文件中的序列標識符

默認情況下會調用內置的svm模型,如果你有該物種已知的mRNA和lncRNA轉錄本序列,也可以構建自己的模型,代碼如下

python PLEKModelling.py \
-mRNA mRNAs.fa \ -lncRNA lncRNAs.fa \ -prefix 20190129

運行成功后,會生成后綴為.model.range的兩個文件。在預測時可以通過參數指定svm模型,用法如下

python PLEK.py \
-fasta transcript.fa \ -out output \ -model 20190129.model -range 20190129.range \ -thread 10


 

 

來源:

https://www.cnblogs.com/wangprince2017/p/10852391.html

https://www.omicsclass.com/article/344

http://blog.sina.com.cn/s/blog_182e021ed0102xbqz.html

 https://www.jianshu.com/p/3f331861c364

https://cloud.tencent.com/developer/article/1556485


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM