“三代轉錄組”是什么?對於混跡在科研領域的一員,如果現在還不了解全長轉錄組測序,恐怕都不好意思說自己了解高通量測序了呢!
今天小編總結了一些三代全長轉錄組測序的相關問題,給大家來一個詳細全面的解釋,希望可以幫到愛學習的您哦!
1.什么是三代全長轉錄組測序
三代全長轉錄組測序,即利用PacBio三代測序平台對某一物種的mRNA進行測序研究。它以平均超長讀長10-15kb的優勢、結合多片段文庫篩選技術,實現了無需拼接的轉錄本分析,克服了傳統二代轉錄組Unigene拼接較短、轉錄本結構不完整的缺陷,也由於其可直接獲得單個RNA分子從5’端到3’端的高質量全部轉錄組信息而得名。
2.為什么要做全長轉錄組測序?
轉錄本非常多樣和復雜,絕大多數基因不符合“一基因一轉錄本”的模式,這些基因往往存在多種剪切形式。通過二代測序,我們可以很准確地進行基因的表達及定量的研究,但是受限於讀長的限制,不能得到全長轉錄本的信息。
基於二代測序平台的轉錄組產品,首先是把RNA打成小的短片斷進行測序,然后再通過生物信息的方法進行拼接,將拼接后的序列交付給客戶。但是基於二代測序平台的轉錄組,由於讀長的限制(PE150),在轉錄本組裝的過程中會存在較多的嵌合體,並且不能准確地得到完整轉錄本的信息,從而會大大降低表達量、可變剪接、基因融合等分析的准確性。
圖1. 二代和三代轉錄組測序原理及讀長對比
目前基於PacBio的單分子實時測序技術,目前平均讀長已經達到10Kb以上,最長可達80Kb,轉錄組測序不再需要組裝,就可以直接得到全長轉錄本的信息。
3.二代與三代轉錄組相比兩者分別有哪些優劣勢?三代轉錄組具體優勢可否說明?
表1. 二代和三代轉錄組測序優劣勢對比
從上述對比表格可看出,兩種轉錄組測序技術互有優劣勢,所以在給各位老師在設計課題時,建議老師二+三代轉錄組測序技術同時使用,保證結構准確性、序列完整性及序列表達量准確性,達到數據的最優利用效果以及性價比最高。
三代轉錄組具體優勢說明如下:
a.超長讀長(平均讀長10-15K,最長讀長80K),可一次將真核生物的全長轉錄本信息讀取完整;
b.無需進行片段打斷和拼接,避免出現組裝錯誤;
c.基於全長轉錄組測序得到的完整准確的轉錄本信息,結合二代數據,方便識別特異性表達且做更加精確的基因和轉錄本表達定量。
d.針對有參考基因組的物種,全長轉錄組信息可以糾正基因組的錯誤組裝、更准確地發現新的轉錄本和基因、分析基因融合事件等。
e.無需鏈特異性建庫,全長轉錄組測序可直接獲取正義鏈、反義鏈及部分LncRNA信息。
圖2. 三代全長轉錄組測序優勢概覽
4.哪些物種適合做三代全長轉錄組測序?獲得這些全長mRNA信息有何用處?
無參考基因組物種和有參考基因組物種均適用。
a.對於沒有參考基因組的物種
由於基因組測序成本高,缺乏基因組參考信息在很大程度上限制了對物種的深入研究。通過三代全長轉錄組測序來構建物種Unigene庫,無需進行序列組裝,就可以獲得該物種轉錄組水平的參考序列(轉錄組水平的參考基因組),為后續研究提供很好的遺傳信息基礎。
獲得這些全長轉錄本信息,可以更准確地進行CDS和SSR分析。如果有同一批樣本的二代數據,不但可以提高三代測序數據的利用率,同時可以對這些全長的轉錄本進行更精准的定量分析。
b.對於有不完善參考基因組的物種
參考基因組組裝不完善是普遍存在的問題,特別是多倍體這類物種,給科研工作帶來了極大阻礙。參考基因組組裝不完善,用二代測序會導致reads比對率低,基因表達定量不准確的問題。用全長轉錄組測序技術可直接獲得轉錄本全長序列,再結合二代測序,會使定量更准確,數據利用率更高,同時基於全長轉錄組數據,可以優化基因結構,進而輔助基因組組裝和注釋。
c.對於具有較好參考基因組的物種
利用三代全長轉錄組測序獲得的信息是生物體內直接存在的,比基於參考基因組預測到的轉錄組信息更准確,同時也可准確鑒定基因的可變剪接、融合基因、基因家族和非編碼RNA等信息。
如果有同一樣本的二代數據,不但可以提高三代數據的利用率,同時還可以深入研究某基因可變剪接形成的不同轉錄本的表達差異。可以確定不同發育階段或不同處理情況下,該基因中高表達轉錄本以及低表達轉錄本。不同樣品的融合基因和等位基因差異,也同樣可以分析。
需要注意的是全長轉錄組測序只能得到轉錄本全長序列,不可進行基因表達定量。
5. 全長轉錄組測序那么貴,如何更大程度上降低測序成本?
由於轉錄組信息呈動態變化且存在組織差異,單一組織得到的全長轉錄本對該物種其他部位組織可能不是很全面或不太適用,所以用一個物種不同部位組織混樣進行高深度測序(針對不同要求及目的,推薦8G、10G和12G等),會得到比較理想的參考轉錄本庫信息,也是降低測序成本的理想方法。
6. 三代全長轉錄組測序如何選擇測序樣本?
總體原則是根據研究目的進行選擇,舉例說明如下:
a.單個三代轉錄組項目:
① 如果想要獲得該物種相對全面的轉錄本信息,建議對該物種的不同部位混合取樣;
② 如果只想研究某個特定的組織部位,建議在不同發育時期對特定組織部位進行取樣;
b. 二+三代轉錄組混合策略項目:
三代轉錄組與二代轉錄組測序取樣部位或時期相對應的同一批樣品,等量RNA混樣測序;
c. 多個三代轉錄組樣品項目:
如果想要研究某物種脅迫處理(其他生物或非生物脅迫都適用)前后變化,建議取對照和處理組(至少兩個樣品)進行對比分析;
① 全長轉錄組混樣測序為了保證數據來源的均一性,一定要等量RNA混合測序,而非等量樣品混合抽取RNA再測序。
② 隨着三代轉錄組測序成本逐步下降,多個三代轉錄組樣品測序的常規時代也即將到來。
7. 全長轉錄本數據量和文庫類型如何確定?
推薦數據量大小需依據物種的復雜程度、基因大小及研究目的來確定。根據已有的項目經驗、數據庫信息及文章中報道,我們詳細推薦如下:
表2. 推薦性全長轉錄本測序數據量和文庫類型
注:對於全長轉錄組測序,數據量並不是固定的,針對同一物種同一研究目的,測序數據量越多,檢測到的全長轉錄本也會越全面。
8. 全長轉錄組測序為什么要建3-4個分段文庫?不同文庫數據產出比例如何?
構建分段文庫,是由PacBio平台測序原理所決定。在三代轉錄組測序過程中,構建好的全長文庫需要loading到測序小孔——零模波導孔(ZMWs)中,由於mRNA長度不同,在loading的過程中會出現一定的loading bias,即測序小孔會優先被長度較短的片段占據,每個測序小孔只能容納一個文庫分子,而大部分長片段則沒有測到。因此為盡量降低loading bias的影響,需要根據測序物種mRNA的長度進行分段,使一個文庫中的序列長度控制在一個較窄的范圍內。故構建分級文庫越多,也會得到更全面的全長轉錄本。
全長轉錄組測序一般推薦至少構建三種文庫類型,1-2Kb、2-3Kb和≥3Kb文庫,數據產出比例為3:2:2。(例如:測8G的數據量,三個文庫分別測3G、3G和2G,也可以根據不同物種調整不同文庫的數據量);構建1-2Kb、2-3Kb、3-6Kb、≥6Kb四個文庫(例如:測12G的數據量,四個文庫分別測4G、4G,2G和2G。數據量分布一般是2:2:1:1或3:2:2:1。
注:根據甜菜三代全長轉錄組文獻中報道還進一步驗證了一個常識,多數原本轉錄本3'UTR+5'UTR長度>1Kb,所以一般不建議構建<1Kb文庫,但研究目的是為了獲得較為全面的轉錄本時才會建議構建<1Kb或0.5-1Kb文庫。
9. 三代全長轉錄組建庫測序的流程是什么?
圖3. 三代轉錄組建庫測序流程簡圖
簡述以上流程:
a.全長cDNA合成:使用Clontech SMARTer PCR cDNA Synthesis Kit合成全長的cDNA;
b.片段選擇及PCR擴增:采用BluePippinTM儀器直接進行片段篩選並進行擴增;
c.SMRTbell文庫制備:將不同插入片段cDNA加上SMRTbell接頭,並完成文庫構建;
d.測序:文庫進行質控后上機三代平台PacBio測序。
10. 三代全長轉錄組測序的生物信息分析流程是什么?具體有哪些分析內容?
圖4. 三代全長轉錄組生物信息分析流程簡圖
表3. 三代全長轉錄組信息分析內容
有參考基因組物種
無參考基因組物種
(1) 原始數據處理及過濾;
(2) 測序數據質量評估;
(3)全長轉錄本判定;
(4)轉錄本聚類校正;
(5)與參考基因組序列比對;
(6)全長轉錄本比對注釋;
(7)基因結構優化;
(8)可變剪接鑒定;
(9)新基因預測及CDS預測
(10)LncRNA預測
(11)基因融合鑒定
(1)原始數據處理及過濾;
(2)測序數據質量評估;
(3)全長轉錄本判定;
(4)轉錄本聚類與校正;
(5)全長轉錄本比對注釋;
(6)預測編碼蛋白框(CDS);
(7) SSR預測;
(8) LncRNA預測;
11. 三代全長轉錄組測序獲得的Clean Reads中,全長序列所占比例是多少?
全長序列所占比例與測序量和建庫長度以及表達量有關。沒有准確的標准,一般全長比例會占到50%左右(與目前文獻報道及官網測試數據水平一致)。
第三代測序技術Pacbio利用單分子實時測序(SMRT, single molecular real time sequencing)技術,無需組裝即可直接獲取5’端到3’端完整的全長轉錄本,具有超長的讀長,因此可得到更高質量的轉錄本,有利於mRNA結構的研究,如可變剪切、融合基因、等位基因表達等。
全長轉錄組的研究越來越熱門,聯合二代轉錄組測序更是成為熱門中的熱門,除了標准的三代全長轉錄組和二代轉錄組測序分析外,還可以利用二代轉錄組測序數據校正三代全長轉錄組數據,提高三代數據利用率;同時利用三代全長轉錄組數據優化二代參考基因組,提高二代定量結果的准確性。小編通過綜合三代經典文獻思路和已有的項目經驗,總結了較全面的三代研究設計方案,供大家參考。
三代測序
利用三代測序,得到某物種的全長轉錄本集合,研究轉錄本結構時,比基於參考基因組預測到的轉錄組信息更准確,可准確鑒定基因的可變剪接、融合基因、基因家族和lncRNA等信息。
A.單個組織取樣:研究特定組織的全長轉錄組;
B.多個組織進行混樣:等量RNA混合測序,獲得物種完整的全長轉錄組;
C.多個組織分別取樣:比較不同組織或不同處理的全長轉錄組;
三代+二代測序
二代數據可以進行基因差異表達分析,也可以對三代數據的結果進行校正;
同時三代數據可以輔助參考基因組優化,使定量結果更准確。
A.利用二代數據對三代數據的結果進行校正,以三代數據結果為重點,分析討論基因結構相關研究[1];
文章:三代全長轉錄組的研究思路(毛竹全長轉錄組)
B.三代數據分析基因結構,同時還可以深入研究某基因可變剪接形成的不同轉錄本的表達差異,分析轉錄組動態變化;
全長轉錄組發現新的前列腺癌生物標志物[2]
發表期刊:ClinicalCancer Research;影響因子:13.214(2017)
雄性激素受體(Androgenreceptor,AR)是正常前列腺細胞和前列腺癌細胞中最主要的轉錄調節因子,前列腺癌患者中表達多個AR變異體(AR-V),其中AR-v7可以提高前列腺癌對AR靶向治療的抗性。但由於受二代測序讀長的限制,無法對完整的AR及AR-V進行准確定量;並且尚不清楚是否有其它AR-V與AR-V7共同表達,影響對AR靶向治療的抗性。結合二代和三代測序,對去勢抵抗性前列腺癌(CPRC)中AR及AR-V的基因結構和表達豐度重新注釋。
C.聯合比較轉錄組研究物種進化,通過分析直系同源基因,研究近源物種間的親緣關系,挖掘關鍵基因與分子機制[3]。
三代全長+二代測序+蛋白
通過三代鑒定得到isoforms,增加新的轉錄本信息;二代分析可用於對轉錄本定量及差異分析;蛋白質組證明哪個可變剪接形成的轉錄本被翻譯成了蛋白質,及不同可變剪接形式所產生的蛋白豐度變化。
聯合蛋白組研究脫落酸處理擬南芥的轉錄和翻譯分子機制[4]
發表期刊:The Plant Journal;影響因子:5.775(2017)
在真核生物中,可變剪切機制有助於蛋白的多樣性,在應激反應和發育過程中起着至關重要的作用,然而其機制在植物中少見報導。由於脫落酸ABA是一種重要的植物激素,參與了各種脅迫反應,ABA信號轉導中的轉錄調控受到了廣泛研究,而轉錄后調控研究的較少。通過選擇6h和48h的對照組和ABA處理樣本進行二代測序和蛋白質組檢測,6h的對照組和處理組進行三代測序,聯合二代測序、三代全長轉錄組測序和蛋白質組,研究在ABA處理下,擬南芥的轉錄和翻譯機制。
三代全長+二代測序(+miRNA/lncRNA)+甲基化
聯合甲基化數據和三代數據獲得可變剪切位點信息,分析甲基化與可變剪切位點的關系;同時利用二代數據,准確分析可變剪接關鍵轉錄本表達水平變化; miRNA/lncRNA進一步豐富研究內容,如研究miRNA調控轉錄本的可變剪切。
全長轉錄組+小RNA+甲基化聯合研究異源多倍體棉花[5]
期刊: New Phytologist;影響因子:7.433(2018)
棉花是紡織業重要的天然可再生能源,也是異源多倍體研究的理想模型。本研究采集不同植株根、胚軸、葉、花瓣、花粉、柱頭組織,即非纖維組織樣品;開花7、10、12、20、30天后(DAP)的棉花纖維組織。混合不同植株樣品,等量RNA混合為纖維和非纖維兩種,進行三代和小RNA測序,以及利用0、10、20、30DAP棉花纖維DNA甲基化測序數據,首次系統探究異源四倍體棉花全長轉錄組的AS特征,並從小RNA和DNA甲基化等角度揭示AS的調控機制。
來源:
https://www.cnblogs.com/wangprince2017/p/10852380.html