三代測序
6.1
三代測序就是指單分子測序。
對於三代測序,存在多種定義。我們采用其中最簡單易懂的那種。此種定義之下的三代測序技術,原本三足鼎立,不幸最早出現的Helicos早早謝幕,后來雖有科學家出大力進行挽救,也沒有搶救成功,以致如今剩下Nanopore和PacBio雙雄並峙。
三代測序的簡要歷史發展進程如下:
2008年,Helicos Bioscience公司推出世界上第一款單分子測序平台,名叫Heliscope。可惜,才短短4年后,2012年,Helicos就宣布破產了。其命運,與世界上第一款二代測序技術454有異曲同工之妙。懷着巨大勇氣,在創新的技術領域嘗試吃第一只螃蟹的難度之大、風險之高,由此可見一斑。
2011年,Pacific Biosciences公司(簡稱PacBio)推出單分子實時測序儀PacBio RS,此后RS形成系列,並增加了Sequel(續集)系列。PacBio技術對待測模板采用“滾鐵環”式擴增,形成單鏈;熒光基團標記在鹼基的磷酸基團上;單鏈DNA在納米孔里穿進穿出,經固定在孔底的酶催化發光;其對於納米孔直徑的大小很有講究,形成孔中有熒光、但是熒光不外漏的效果,降低孔與孔之間的熒光本低,稱為“零波導”。測序過程中大規模檢測熒光信號,並把它轉換為鹼基信息;測序的平均讀長在數十kb級別,最長可達數百kb。滾鐵環擴增可以形成模板DNA的多個拷貝,所以一個模板分子可以被反復測序多次。
2012年,另一家公司Oxford Nanopore (簡稱ONT)推出單分子實時測序儀MinION和GridION。ONT把具有納米尺度的分子通道的蛋白質分子固定在基質上,以天然的蛋白質通道為納米孔,在每個納米孔的旁邊另行固定一個起剪刀作用的酶分子(也是蛋白質);單鏈DNA分子從納米孔里穿過的時候,剪切酶把鹼基挨個切斷,半導體器件捕獲單分子鹼基穿過蛋白質納米孔時所引起的電流變化信號,把它轉換為鹼基信息。Nanopore技術的測序讀長也是相當長,可達數十至數百kb。
三代測序個性分明,優點和短板同樣分明。優點如下:
1、長讀長:
二代測序普遍讀長很短,從最初的36鹼基,靠改進試劑質量逐漸提升到50 bp、75 bp、100 bp、150 bp、300 bp;
然后靠PE技術,把讀長分別加倍,形成虛擬的長讀長,把不連續的虛擬長片段的長度提高到數百bp,一般是200 bp (WES)或者350 bp(WGS);
再然后靠MP技術,把不連續的虛擬長片段的長度提高到數十kb,它在測序讀長方面的潛力就基本到頭了。
而三代測序的讀長平均在10 kb級別,最長可達100 kb,是不折不扣的長讀長測序。
長讀長對於基因組de novo組裝具有重要意義;而全長轉錄組測序也是三代測序絕對亮眼的優勢應用。
2、低偏倚:由於三代測序是單分子測序,在文庫構建和測序過程中都可以不經過PCR擴增,由此既消除了PCR擴增的偏倚(bias),也消除了二代測序數據所具有的duplication。
3、速度快:由於文庫構建比NGS簡單,三代測序出報告的速度比二代測序快(可能受服務器配制、數據分析速度影響)。
缺點如下:
1、錯誤比較高:因為是單分子測序,缺乏一代測序和二代測序那樣天然具有的多分子反復、重復測序數據之間的相互校正,酶的天然錯誤率被三代測序徹底暴露。酶的天然錯誤率大約在15%左右,所以三代測序的准確性大約為85%(=1-15%)。
要提高三代測序的准確性(同時也有提高檢測靈敏度的效果),有兩種辦法:
一是模仿二代測序和一代測序,進行小規模的多分子測序,通過多分子測序來較准錯誤,通過小規模來控制成本,比如,對同一個樣本反復測序6-10次。
由於酶的錯誤是隨機發生的,錯誤分布不集中,在不同的reads里面錯誤出現的位置不同,用重復測序的數據可以進行相互校正,從而把整體錯誤率給降低下來。
比如,PacBio技術的滾環擴增模式,可以由同一個模板DNA分子產生多個子代拷貝,從而可以反復測序多次,以適當增加測序成本為代價,提高測序的准確率。
二是采用閱爾基因的獨門暗器BDA技術(LDA是為三代測序而量身定制的BDA升級版本),選擇性地放大變異等位基因,使其信號強度遠遠超過本底,從而把三代測序的靈敏度提高到前所未有的0.1%(千分之一),達到可以開展腫瘤ctDNA液體活檢的程度。Nanopore平台特別適合采用LDA技術進行降噪。
閱爾基因LDA技術的發明,幫助Nanopore平台開拓了全新的腫瘤液體活檢應用場景。
2、通量比較低:比如,Sequel一個cell產出數據5 Gb左右,與二代測序的NovaSeq運行一輪產出~5 Tb數據的超高通量相比,差了1000倍,還存在一定的差距。
3、成本比較高:
成本與通量是負相關的。
測序通量越大,成本越低。
在目前階段,三代測序適合科研市場;如果應用於臨床檢測市場,還需要努力降低成本、提高靈敏度。
當然,盡管三代測序應用於重測序和靶向測序的成本還是有點偏高,但是它在基因組de novo組裝這一特定應用上具有成本優勢,實現了萬元基因組de novo測序,對於開展“新”物種全基因組測序、復雜疾病的未知致病基因研究、罕見病家系研究等領域都具有意義。
6.2 單分子熒光測序。
化學原理:通過縮小孔的直徑來減少本低噪音信號對於測序的干擾。但是錯誤率比較高,可以通過對一個模板DNA分子進行重復測序的多次,以數據之間的互相較准來取得更准確的鹼基序列。
主要廠商:Pacific Biosciences。
代表儀器:PacBio RS和Sequal。
PacBio測序最具有特色的兩個優勢應用方向為:基因組de novo組裝,全長轉錄組測序。
基因組de novo組裝一般包括4個步驟,每個步驟均有對應的軟件工具可供使用:
1、糾錯。三代數據隨機錯誤很多,因此要對測序數據進行糾錯。糾錯可以利用NGS數據,或者利用contig。
2、組裝。純用三代數據單獨進行組裝需要40x的測序深度。
3、混拼。混拼就是二代數據和三代數據一起組裝,要求20x的測序深度。
4、補洞。利用三代數據長片段來填補二代數據組裝gap,把contig連接成scaffold,要求5x的測序深度。
全長轉錄組測序的數據分析不需要組裝,只需要糾錯和識別兩步。配套的定量仍然利用二代測序。基於三代測序的全長轉錄本測序在輔助基因注釋、可變剪接分析、融合基因檢測等方面擁有優勢。
6.3 Nanopore測序
6.3.1 發展歷程
化學原理:單鏈DNA分子穿過蛋白質納米孔,鹼基依次被納米孔旁邊的酶切斷,游離鹼基穿過納米孔的時候造成特征性的電位變化,相關信號由半導體器件采集。
不同鹼基電位變化的圖式不同,由此可以識別鹼基。主要廠商:Oxford Nanopore公司。
Nanopore技術從提出原理到走上市場,所耗時間漫長。其發展歷程大致如下:
2012年,ONT在基因組生物學技術進展年會(AGBT)上推出掌上型MinION測序儀,轟動一時;但直至2014年才正式推出MinION試用計划。
2016年5月,發布更小的測序儀SmidgION,可連接智能手機,檢測DNA和RNA。
2016年底,通過試劑和芯片的不斷升級,通量、讀長和准確率大幅提升。MinION平台首次完成人基因組測序。相比其他技術動輒上百萬、上千萬一套的測序儀,ONT測序儀價格低廉。
2017年,發布GridION X5,含有5個流動槽,可同時上機5個芯片,應用於大規模測序項目;PromethION通量更高,含有48個新型flowcell,每個flowcell有3,000個channel,一次 48小時運行可獲得6.2 Tb數據。
除了科研市場火熱的基因組測序應用,Nanopore技術在細胞鑒定、食品安全、水質檢測、消費者基因檢測、生物防御、疫情爆發的調查和監控等領域都可以大展拳腳。在醫學應用領域,結合LDA(閱爾基因的BDA技術),可以把Nanopore的靈敏度提高到千分之一,從而可以開展腫瘤ctDNA液體活檢,具有速度快的優勢。
6.3.2 MinION測序原理
以MinION為例。MinION的特點是讀長超過150 kb,測序速度快,實時監控測序數據,機器便攜。
MinION的核心是一個包含2048個納米孔、分成512組、由集成電路控制的flowcell。測序方法有兩種模式:2D和1D。
在文庫構建過程中,要在雙鏈DNA分子上連接lead adaptor、hairpin adaptor和trailing adaptor。
在測序過程中,2D方法的主要步驟是:lead adaptor拖着待測DNA鏈,首先進入由酶控制的納米孔;然后是待測DNA分子鏈通過納米孔,所得測序數據稱為template read;hairpin adaptor的作用是DNA雙鏈測序的保證;然后待測DNA分子的互補鏈通過納米孔,獲得complementread;最后,trailing adaptor通過納米孔。在上述測序方法中,template read和complement read依次通過納米孔,利用pairwise alignment軟件可以把它們組合成2D read。
1D方法不使用hairpin adaptor,只測序template read,最終形成1D read。1D方法通量比2D高,但是准確性比2D低。
6.3.3 MinION的優勢
1、修飾鹼基檢測
納米孔測序技術可以檢測4種胞嘧啶(cytosine)鹼基修飾,分別為5-methycytosine、5-hydroxymethycytosine、5-formylcytosine和5-carboxylcytosine,准確率為92%-98%。
2、實時監控測序
實時獲取和分析DNA/RNA序列對於臨床實踐很重要。NGS做不到這一點,但是對於MinION,在測序過程中單分子穿過納米孔,其電流變化可以實時檢測並識別,用戶可以在測序過程中根據實時結果相應地做出一些判斷。
【雲】我覺得吧,實時監控測序數據並沒什么卵用。
3、長讀長
MinION測序儀1D模式可以獲得300 kb長的read;2D模式可以獲得60 kb長的read。長讀長有助於基因組組裝。研究實例:利用MinION測序產生的長read,研究人員設法填充了人參考基因組中Xq24區域的一個長達50 kb的gap。該區域存在多個CT47基因串聯拷貝,利用MinION的長read,判斷該區域極有可能存在8個CT47基因拷貝。
4、結構變異檢測
NGS短序列的特征使得它對於結構變異的檢測往往不准確。這個問題在癌症檢測中尤其嚴重,因為癌症組織中充斥各種結構變異。研究發現,只要幾百條MinION長read,所識別出來的結構變異比上百萬條NGS 短read更可靠。
5、RNA表達分析
對於RNA表達分析,NGS短序列需要進行拼接才能得到轉錄本,這給可變剪接研究帶來困擾。通常NGS測序不能提供足夠的信息來區分不同形式的可變剪接。MinION測序產生的長read可以更好地解決這個問題。以果蠅的Dscam1基因為例,其存在18,612種可變剪切形式,MinION測序可以檢出超過7,000種可變剪切形式,這是利用NGS短序列測序不能獲得的。
6.3.4 生物信息學配套軟件的發展
近年來,隨着生物信息分析方法的發展,MinION測序reads成功比對參考基因組的比例已經從66%提升到了92%。相關軟件工具包括:
1、鹼基識別工具
2、序列比對工具
3、從頭組裝工具
4、單核苷酸變異(SNV)檢測工具
5、一致序列(consensus sequence)運算工具
6.3.5 MinION測序應用
1、即時檢測傳染源
盡管NGS也可以在醫院環境下進行傳染源檢測,但是MinION測序方法提供了一種全新的體驗。MinION在測序讀長、便攜性、檢測時長等方面具有優勢。文獻記載從樣品准備到鑒定致病菌只需要6小時,從樣品上機到鑒定致病菌只需要4分鍾。西非爆發埃博拉病毒疫情時,MinION測序對於病毒檢測起到過重要作用。
2、非整倍體檢測
MinION可以在胎兒非整倍體產前檢測中發揮重要作用。NGS通常需要1-3周時間才能獲得結果,而MinION測序只需要4小時。
6.3.6 未來展望
1、提高測序通量
為了滿足高通量測序需求,台式納米孔測序儀PromethION裝載有48個flowcell,每個flowcell可以單獨運行,也可以並行。每個flowcell包括3000個通道(channel),每天產生6 Tb數據。
2、提高測序准確性
目前MinION測序的准確率在92%左右。對於致病菌和可變剪切的發掘,這樣的准確率可以滿足需求。但是臨床檢測通常需要達到99.99%的准確率。針對隨機錯誤,ONT公司需要優化相關化學和鹼基識別軟件。
MinION測序也存在非隨機的錯誤。比如MinION不能很好地處理長於6個核苷酸的單一鹼基重復,也缺少鹼基修飾檢測的內參訓練。如果這兩個問題能夠解決,一致序列(consensus)的准確率可以達到大於99.99%的標准。
結合運用閱爾基因的BDA和LDA技術,可以大幅度提高納米孔測序的准確度。
3、進一步提高測序讀長
三代測序本來就可以獲得很長的讀長,比如MinION測序的讀長已經達到了150 kb。但是這指的是最長讀長,而不是所有片段的長度。對於納米孔測序,需要進一步提高的是一輪測序所得全部片段的平均讀長。
4、RNA直接測序
RNA測序通常離不開逆轉錄和PCR擴增(RT-PCR),但是逆轉錄和PCR擴增會導致很多RNA自身信息的丟失,所以研究機構正在嘗試運用納米孔技術對RNA進行直接測序。研究表明,tRNA可以進行單通道和固態納米孔(solid-statenanopore)檢測,而且納米孔測序可以檢測tRNA的鹼基修飾。