在很多情況下,我們需要把多個樣本混合在一起,在同一個通道(lane)里完成測序。像轉錄組測序、miRNA測序、lncRNA測序、ChIP測序等等,通常每個樣本所需要的數據量都比較少,遠少於HiSeq一個通道的產出能力,混合樣本是普遍作法。以轉錄組測序為例,一個樣本測序20 M片段(reads),就能夠滿足絕大部分研究所需。而HiSeq 2000的一條通道,使用v3試劑,數據產出>175 M片段(如果雙端分別計算,則為350M)。為了充分利用測序儀產能,節約成本,需要把8個RNA樣本混合起來。如果使用v4試劑,是220M以上(雙端440M),可混合11個樣本。
為了能夠把測序數據按樣本分離(de-multiplexing),在構建文庫(library)的時候,需要用不同的標簽序列(index, 也叫barcode)對文庫進行標記。只有文庫作了記號,數據才能區分。
Barcode的選擇是一門技術活。如果barcode組合不佳,標簽序列測序質量下降,部分或者全部標簽鹼基識別不正確,將導致部分數據無法歸屬到任何一個樣本,成為undetermined數據,造成浪費。
一、如何判斷barcode組合好壞?
1、鹼基平衡。好的barcode組合必須是“4種鹼基達到平衡”的,或者說鹼基復雜度高。具體就是:a. 在一組barcode的每一個位置,同時存在A、G、C、T四種鹼基,不缺少任何一種鹼基;b. 這4種鹼基的比例接近,最好各1/4,分別為25%左右,沒有任何一種鹼基特別多或者特別少。
2、激光平衡。受客觀條件限制,主要是a.試劑盒提供的barcode種類有限,b.有些barcode已經被其他樣本占用,導致可選的余地受限制,這就導致barcode組合經常無法達到理想的鹼基平衡要求。退而求其次,要力保“紅綠激光達到平衡”。在所有型號的Illumina測序儀中,A和C兩種鹼基共用一種激光,由波長660 nm的紅激光激發;G和T共用一種激光,由波長532 nm的綠激光激發。對於一組barcode的每一個位置,如果A+C的總數與G+T的總數相接近,可以在一定程度上彌補鹼基不平衡的負面作用。
3、激光平衡是次優選擇,不得已而為之。它雖然可以在一定程度上提高barcode測序質量,減少de-multiplexing出問題的可能性,但是並不是說,只要激光平衡了,測序數據的分離就一定不受影響。
4、如果barcode組合鹼基也不平衡,激光也不平衡,則de-multiplexing風險非常高。
二、Barcode組合舉例
1、好的組合。
Illumina推薦的12個樣本barcode組合如下。
編號 序列
01 ATC ACG
02 CGA TGT
03 TTA GGC
04 TGA CCA
05 ACA GTG
06 GCC AAT
07 CAG ATC
08 ACT TGA
09 GAT CAG
10 TAG CTT
11 GGC TAC
12 CTT GTA
位置
1st
2nd
3rd
4th
5th
6th
A
3
3
4
3
3
3
T
3
3
3
3
4
3
C
3
3
3
3
2
3
G
3
3
2
3
3
3
以第一個位置(縱列)為例,A:G:C:T=3:3:3:3=1:1:1:1。實際上,該barcode組合每個位置的鹼基比例都接近1:1,鹼基平衡度近乎完美。
2、不好的組合
下面的組合有缺陷。比如說,第1個位置只有A和C兩種鹼基,A、C都屬於紅激光,導致綠激光沒有信號,鹼基和激光都不平衡。
AGTTCC
ACTGAT
ACGAGC
ACTCCT
CAAAAG
CAACCA
CACCAG
三、Barcode鹼基不平衡的后果
1、如果barcode組合的鹼基組成不平衡,會導致測序進行到這些鹼基時,軟件對測序信號的處理出現障礙,不能准確地識別這些鹼基(base-calling),表現為QV值降低,%Q30曲線波動。
2、在這種情況下,運用生物信息軟件對測序數據進行數據分離(de-multiplexing)出現困難,部分數據不能准確分離,成為undetermined 數據的一部分,造成undetermined數據增多,可分離的數據減少。
3、如果測序數據的總量很多,遠大於全部樣本數據量期望值的總和,則問題有可能不那么嚴重,全部或者大部分樣本仍然可能分離到足夠的數據量。
4、萬一樣本性質特殊,反應效率低;或者混合樣本之間競爭和抑制嚴重,導致測序數據總量在期望值附近,余量很少;或者其中個別樣本數據量特別少,這時如果undetermined數據比例過高,就會導致部分或者全部樣本的數據量不夠用。
5、混合樣本補數據是一個非常麻煩的問題,成本極高。如果一組樣本中只有個別樣本需要補數據,由於文庫是混合在一起的,其他樣本也不得不跟着重測一次。這是困難之一。困難之二,如果數據缺口比較小,本來可以與其他樣本混合,搭個便車,可是,進行第二次混合的時候,經常會遇到barcode沖突或者鹼基不平衡,拼lane非常困難,往往要等很長時間,才有合適的機會。
四、實驗證明de-multiplexing成功,該barcode組合今后是否一定好用?
1、如果barcode組合鹼基平衡,則無論樣本怎么變,該組合一定好用。
2、如果barcode組合的鹼基組成不理想,即使以前的實驗證明好用,不等於今后一定好用。下一次測序效果可能好,也可能不好。
3、這是由於不同的項目樣本不同,有可能導致兩種后果:a. 數據總量在期望值附近,余地不夠多,de-multiplexing后部分樣本數據量不夠;b. 如果新的樣本本身也鹼基不平衡,read 1測序質量很差,會影響到barcode和read 2的測序質量。當然,情況b責任不在barcode,即使barcode很好,數據還是不夠。
五、補救措施
如果滿足以下兩個條件:
a. 混合樣本的數據總量足夠,只是由於barcode質量不好,導致de-multiplexing后部分或全部樣本數據量不夠;
b. 排除QV值低的barcode鹼基后,其余質量好的barcode鹼基仍然足夠用來區分全部樣本;
那么,可以通過改變de-multiplexing算法來為每個樣本獲得盡量多的數據。比如去掉信號識別模糊的鹼基,或者增加mismatch鹼基的數目,重新運行de-multiplexing程序。
六、樣本少於4種,不可能鹼基平衡,怎么辦?
如果樣本數少於4種,每一個位置的鹼基最多只有3種,不可能鹼基平衡,怎么辦呢?這時一定要保證激光平衡。Illumina推薦了3種low-level pooling的barcode組合:
2個樣本:
#6 GCCAAT
#12 CTTGTA
3個樣本:
#4 TGACCA
#6 GCCAAT
#12 CTTGTA
6個樣本:
#2 CGATGT
#4 TGACCA
#5 ACAGTG
#6 GCCAAT
#7 CAGATC
#12 CTTGTA
這3種組合包含一個共同內核:6號和12號。6號和12號組合是百分百激光平衡的,每一個位置的鹼基(縱列,即GC、CT、CT、AG、AT和TA)都分別屬於不同的激光。只要barcode組合中包含6號和12號,就能滿足最基本的要求,不至於顆粒無收。6號和12號是barcode組合的核心,不可或缺。