測序:
如何計算測序深度,或產出的數據量?
10的9次方=1G
如果測序的read是pair-end的、且每條read長150bp,則,平均測序深度為=(reads數×150bp×2)/(3*10的10次方)。
即:測序得到的鹼基總數/人類基因組的鹼基對數=平均測序深度。
比如,我想得到30x的測序數據,那么需要的數據量是90G的數據。(此處,還不甚了解,我覺得應該是900G的數據啊)
(人類基因組有30億個鹼基對(3*10的10次方))
測序錯誤率:一般選擇的閥值是10的-3次方,即測序錯誤率是0.001。(PCR的錯誤率是10的-6次方)
coverage與depth的概念:coverage指的是測序數據覆蓋的人類基因組的鹼基數。depth指的是平均每個鹼基被測序read覆蓋的次數(即被測到的次數)。
index的含義:index用來區分不同的樣本。單端index共6個鹼基,排列組合,共4的6次方個鹼基,無法區分66個樣本。故,需要采用雙端index。
雙端index,分為i5和i7端。i5端有8個鹼基,i7端有12個鹼基。
測序的cycle:一個cycle讀取一個鹼基。也稱為:base call。若有index序列,則測序儀會多讀幾個cycle。
文庫構建:
加Y型adapter的目的:1)區分read1和read2,即DNA鏈的兩端;2)防止adapter自連。
Y型adapter不是互補的,兩端的序列不一致。
10ng的DNA就可以建庫,測序。
WGS:
全基因組的重復率是20%,用picard統計duplicate的工具(原理:map位置相同,cigar值相同)。
建庫流程:提取全基因組,打斷、末端不平加A,加adapter,PCR擴增,測序。
區別cfDNA的靶向建庫:cfDNA已經是斷裂的片段,所以不需要打斷、末端補平加A的步驟,只要提取游離DNA后,用引物擴增即可。
target sequencing:
只對特定區域的進行測序。對cfDNA測序時,不需要打斷、末端加A的處理。因為cfDNA已經是片段化的了。
測序儀:
一個flowcell可以看做是一個板(看做一個房間)。一個flowcell上有8條lane(像管子一樣),一條lane可產生60G的數據(1條lane測多少數據是固定的)。每條lane上有很多個tile,每個tile都有(x,y)坐標位置,即read長簇的位置。
Xten測序儀只能測單端index,無法測雙端index。
邊合成邊測序。dnTP。參照下面的兩張圖: