VCF是用於描述SNP,INDEL和SV結果的文件,下面所記錄的是以GATK軟件結果的VCF文件,與SAMtools的結果有點不同
VCF文件可以分為兩部分看,最上面#號注釋的的部分是對一些參數的解釋(看英文能懂的話,下面的解釋就不用看了),而下面沒#號注釋的部分則是各個參數對應的具體的值
一般先關注以下幾列信息,從左到右為:
CHROM POS ID REF ALT QUAL FILTER INFO
1 17538 rs200046632 C A 99.60 PASS
1 54421 rs146477069 A G 88.60 PASS
1 55299 rs10399749 C T 867.60 PASS
1 61442 rs74970982 A G 593.03 PASS
1 63268 rs75478250 T C 357.60 PASS
1 64310 rs367969174 A G 59.60 PASS
CHROM :染色體編號
- POS:參考基因組上variant鹼基的位置,如果是INDEL,則該位置是INDEL第一個鹼基的位置
- ID:variant的ID,如果在dbSNP中有SNP的id,則顯示其id,不然以點表示novel variant。
- REF:參考序列上該位點對應的鹼基
- ALT:與參考序列上的鹼基相比發生了突變的鹼基,即Variant的鹼基
- QUAL:Phred格式(Phred_scaled)的質量值,表示該位點存在Variant的可能性,值越高表示突變可能性越大
- FILTER:理想情況下,QUAL這個值應該是用所有的錯誤模型算出來的,這個值就可以代表正確的變異位點了,但是事實是做不到的。因此,還需要對原始變異位點做進一步的過濾。無論你用什么方法對變異位點進行過濾,過濾完了之后,在FILTER一欄都會留下過濾 記錄。
- 如果是通過了過濾標准,那么這些通過標准的好的變異位點的FILTER一欄就會注釋一個PASS,如果沒有通過過濾,就會在FILTER這一欄提示除了PASS的其他信息(如:LowQual)
- 如果這一欄是一個“.”的話,就說明沒有進行過任何過濾。
FORMAT
FORMAT和最后一列(最后一列一般為樣品名),兩者和一起則為基因型信息,前者為格式,后者為對應的數據,如:
GT:AD:DP:GQ:PL 0/1:6,5:11:99:138,0,153
- GT:表示樣品的基因型,對於二倍體生物,GT值表示的是樣本在這個位點所攜帶的兩個等位基因。0表示跟REF一樣,1表示跟ALT一樣,2表示有第二個ALT;當只有一個ALT等位基因時:0/0表示純合子並跟REF一致;0/1表示雜合子,有兩個allele,一個是ALT,另一個是REF;1/1表示純合子並都為ALT
- AD:兩個以逗號分隔的值,分別表示覆蓋到REF和ALT鹼基的reads數,也就是REF和ALT對應的測序深度
- DP:表示覆蓋在這個位點的總reads數,也就是這個位點的測序深度(並不是指具體有多少個reads數量,而是大概滿足一定質量值要求的reads數)
- PL:三個逗號分隔的值,分別對應該位點的三個基因型0/0,0/1,1/1的沒經過先驗的標准化Phred-scaled似然值(L),L=-10lgP,P為支持該基因型的概率,3個概率總和為1;因此,L這個值越小,支持概率就越大,也就是說是這個基因型的可能性越大。
- GQ:表示基因型的質量值,Phred格式(Phred_scaled)的質量值,Phred值 = -10 * log (1-p) p為基因型存在的概率,表示該位點基因型存在的可能性。
INFO 信息列
AC=1;AF=0.500;AN=2;BaseQRankSum=0.748;ClippingRankSum=0.000;DB;DP=34;ExcessHet=3.0103;FS=3.424;MLEAC=1;MLEAF=0.500;MQ=31.07;MQRankSum=-0.087;QD=11.87;ReadPosRankSum=-1.349;SOR=2.636
AC=2;AF=1.00;AN=2;DB;DP=14;ExcessHet=3.0103;FS=0.000;MLEAC=2;MLEAF=1.00;MQ=31.60;QD=29.36;SOR=5.421
- AC:表示該Allele的數目,Allele數目為1表示雙倍體的樣本在該位點只有1個等位基因發生了突變
- AF:表示Allele的頻率,Allele頻率為0.5表示雙倍體的樣本在該位點只有50%的等位基因發生了突變
- AN:表示Allele的總數目
- 即:對於1個diploid sample而言:
- 則基因型 0/1 表示sample為雜合子,Allele數為1(雙倍體的sample在該位點只有1個等位基因發生了突變),Allele的頻率為0.5(雙倍體的 sample在該位點只有50%的等位基因發生了突變),總的Allele為2;
- 基因型 1/1 則表示sample為純合的,Allele數為2,Allele的頻率為1,總的Allele為2。
- DP:樣本在這個位置的reads覆蓋度,是一些reads被過濾掉后的覆蓋度(跟上面提到的DP類似)
- FS:使用Fisher’s精確檢驗來檢測strand bias而得到的Fhred格式的p值,值越小越好
- MQ:表示覆蓋序列質量的均方值RMS Mapping Quality
- BaseQRankSum:Z-score from Wilcoxon rank sum test of Alt Vs. Ref base qualities
- ClippingRankSum:Z-score From Wilcoxon rank sum test of Alt vs. Ref number of hard clipped bases
- ExcessHet:Phred-scaled p-value for exact test of excess heterozygosity
- MLEAC:Maximum likelihood expectation (MLE) for the allele counts (not necessarily the same as the AC), for each ALT allele, in the same order as listed
- MLEAF:Maximum likelihood expectation (MLE) for the allele frequency (not necessarily the same as the AF), for each ALT allele, in the same order as listed
- MQRankSum:Z-score From Wilcoxon rank sum test of Alt vs. Ref read mapping qualities
- QD:Variant Confidence/Quality by Depth
- ReadPosRankSum:Z-score from Wilcoxon rank sum test of Alt vs. Ref read position bias
- SOR:Symmetric Odds Ratio of 2x2 contingency table to detect strand bias