Variant Call Format(VCF)是一個用於存儲基因序列突變信息的文本格式。表示單鹼基突變, 插入/缺失, 拷貝數變異和結構變異等。BCF格式文件是VCF格式的二進制文件。
CHROM [chromosome]: 染色體名稱。
POS [position]: 參考基因組突變鹼基位置,如果是INDEL(插入缺失),位置是INDEL的第一個鹼基位置。
ID [identifier]: 突變的名稱。若沒有,則用‘.’表示其為一個新變種。
REF [reference base(s)]: 參考染色體的鹼基,必須是ATCGN中的一個,N表示不確定鹼基。
ALT [alternate base(s)]: 與參考序列比較,發生突變的鹼基;多個的話以“,”連接, 可選符號為ATCGN*,大小寫敏感。
QUAL [quality]: Phred標准下的質量值,表示在該位點存在突變的可能性;該值越高,則突變的可能性越大;計算方法:Phred值 = -10 * log (1-p) p為突變存在的概率。
FILTER [filter status]: GATK使用其它的方法進行過濾后得到的過濾結果,如果通過則該值為“PASS”;若此突變不可靠,則該項不為”PASS”或”.”。
INFO [additional information]: 表示變異的詳細信息
DP [read depth]: 樣本在這個位置的一些reads被過濾掉后的覆蓋度
DP4 : 高質量測序鹼基,位於REF或者ALT前后
MQ [mapping quality]: 表示覆蓋序列質量的均方值RMS
FQ : Phred值關於所有樣本相似的可能性
AF1 [allele frequency]: 表示Allele(等位基因)的頻率,AF1為第一個ALT等位基因發生頻率的可能性評估
AC1 [allele count]: 表示Allele(等位基因)的數目,AC1為對第一個ALT等位基因計數的最大可能性評估
AN [allele number]: 表示Allele(等位基因)的總數目
IS : 插入缺失或部分插入缺失的reads允許的最大數量
AC [allele count]: 表示該Allele(等位基因)的數目
G3 : ML 評估基因型出現的頻率
HWE : chi^2基於HWE的測試p值和G3
CLR : 在受到或者不受限制的情況下基因型出現可能性的對數值
UGT : 最可能不受限制的三種基因型結構
CGT : 最可能受限制三種基因型結構
PV4 : 四種P值的誤差,分別是(strand、baseQ、mapQ、tail distance bias)
INDEL : 表示該位置的變異是插入缺失
PC2 : 非參考等位基因的Phred(變異的可能性)值在兩個分組中大小不同
PCHI2 : 后加權chi^2,根據p值來測試兩組樣本之間的聯系
QCHI2 : Phred標准下的PCHI2.
PR : 置換產生的一個較小的PCHI2
QBD [quality by depth]: 表示測序深度對質量的影響
RPB [read position bias]: 表示序列的誤差位置
MDV : 樣本中高質量非參考序列的最大數目
VDB [variant distance bias]: 表示RNA序列中過濾人工拼接序列的變異誤差范圍
GT [genotype]: 表示樣品的基因型。兩個數字中間用‘/’分 開,這兩個數字表示雙倍體的sample的基因型。
0 表示樣品中有ref的allele
1 表示樣品中variant的allele
2表示有第二個variant的allele
0/0 表示sample中該位點為純合的,和ref一致
0/1 表示sample中該位點為雜合的,有ref和variant兩個基因型
1/1 表示sample中該位點為純合的,和variant一致
GQ [genotype quality]: 表示基因型的質量值。Phred格式的質量值,表示在該位點該基因型存在的可能性;該值越高,則Genotype的可能性越 大;計算方法:Phred值 = -10 * log (1-p) p為基因型存在的概率。
GL : 三種基因型(RR RA AA)出現的可能性,R表示參考鹼基,A表示變異鹼基
DV : 高質量的非參考鹼基
SP : Phred的p值誤差線
PL [provieds the likelihoods of the given genotypes]: 指定的三種基因型的質量值。三種指定的基因型為(0/0,0/1,1/1),這三種基因型的概率總和為1。該值越大,表明為該種基因型的可能性越小。 Phred值 = -10 * log (p) p為基因型存在的概率。
FORMAT : 用於描述樣本的(可選)可擴展的字段列表
SAMPLEs : 對於文件中描述的每一個(可選)樣本,給出了在格式中列出的字段的值