phred-scale quality score起源於人類基因組計划,最初是用來評估鹼基質量分數,后來,被廣泛的推廣到基因領域的其他內容。
phred-scalequality score表示這件事情做對的可能性,值越高,則做對的可能性越高。一般說來,值可以從0到無窮大。
phred-scale quality score的計算公式:Q=-10 * logE ;Q表示score ,E表示這件事情出錯的概率。
下表為一一對應的Q值和E值:

下圖為上表的曲線圖:

可以看得出來,phred score超過20以后,正確率的曲線趨勢於一條無變化的直線,即超過20以后,正確率的變化不大。所以很多事情的閾值都定在Q20,比如常說的下機數據中Q20的比率有多大。
phred-scale quality score最常用於兩個地方:
1、鹼基質量分數
2、variant quality score,在GATK中是QUAL列。
