你能給別人講清楚這個概念嗎?
二代測序中,每測一個鹼基會給出一個相應的質量值,這個質量值是衡量測序准確度的。鹼基的質量值13,錯誤率為5%,20的錯誤率為1%,30的錯誤率為0.1%。行業中Q20與Q30則表示質量值≧20或30的鹼基所占百分比。例如一共測了1G的數據量,其中有0.9G的鹼基質量值大於或等於20,那么Q20則為90%。
Q20值是指的測序過程鹼基識別(Base Calling)過程中,對所識別的鹼基給出的錯誤概率。
質量值是Q20,則錯誤識別的概率是1%,即錯誤率1%,或者正確率是99%;
質量值是Q30,則錯誤識別的概率是0.1%,即錯誤率0.1%,或者正確率是99.9%;
質量值是Q40,則錯誤識別的概率是0.01%,即錯誤率0.01%,或者正確率是99.99%;
首先,鹼基質量值是衡量測序質量的重要指標,質量值(Q)越高代表鹼基被測錯的概率(P)越小,其計算公式為Q=-10lgP。例如,Q20和Q30分別代表鹼基被測錯的概率為1%和1‰。Illumina官方一般以Q30作為評價標准,以目前最常用的HiSeq 2000平台2×100PE測序為例,Illumina官方保證大於80%鹼基准確度達Q30,而千年基因在合同中嚴格保證大於85%鹼基准確度達Q30。
總結:
測序時每個鹼基都會有質量值,我們設定一個閾值:20或30,如果低於這個閾值就表示鹼基基本是測序錯誤的鹼基,對測序的每個鹼基做統計,如果
測序時每個鹼基都會有質量值,如鹼基質量值為20則表示該鹼基的錯誤率為,10^(20/(-10))=0.01=1%(根據Q=-10lgP計算)
行業中,為了評估下機reads測序的准確度,我們會評估Q20或Q30(及所有鹼基質量值大於20或30所占的比例),一般合同中要嚴格保證Q30至少達到85%。
是不是明白了呢?