VCF格式說明


VCF是用於描述SNP,INDEL和SV結果的文件,下面所記錄的是以GATK軟件結果的VCF文件,與SAMtools的結果有點不同

VCF文件可以分為兩部分看,最上面#號注釋的的部分是對一些參數的解釋(看英文能懂的話,下面的解釋就不用看了),而下面沒#號注釋的部分則是各個參數對應的具體的值

一般先關注以下幾列信息,從左到右為:

CHROM    POS    ID    REF    ALT    QUAL    FILTER    INFO
1    17538    rs200046632    C    A    99.60    PASS    
1    54421    rs146477069    A    G    88.60    PASS
1    55299    rs10399749    C    T    867.60    PASS
1    61442    rs74970982    A    G    593.03    PASS
1    63268    rs75478250    T    C    357.60    PASS
1    64310    rs367969174    A    G    59.60    PASS

CHROM :染色體編號

  • POS:參考基因組上variant鹼基的位置,如果是INDEL,則該位置是INDEL第一個鹼基的位置
  • ID:variant的ID,如果在dbSNP中有SNP的id,則顯示其id,不然以點表示novel variant。
  • REF:參考序列上該位點對應的鹼基
  • ALT:與參考序列上的鹼基相比發生了突變的鹼基,即Variant的鹼基
  • QUAL:Phred格式(Phred_scaled)的質量值,表示該位點存在Variant的可能性,值越高表示突變可能性越大
  • FILTER:理想情況下,QUAL這個值應該是用所有的錯誤模型算出來的,這個值就可以代表正確的變異位點了,但是事實是做不到的。因此,還需要對原始變異位點做進一步的過濾。無論你用什么方法對變異位點進行過濾,過濾完了之后,在FILTER一欄都會留下過濾 記錄。
    - 如果是通過了過濾標准,那么這些通過標准的好的變異位點的FILTER一欄就會注釋一個PASS,如果沒有通過過濾,就會在FILTER這一欄提示除了PASS的其他信息(如:LowQual)
    - 如果這一欄是一個“.”的話,就說明沒有進行過任何過濾。

FORMAT

FORMAT和最后一列(最后一列一般為樣品名),兩者和一起則為基因型信息,前者為格式,后者為對應的數據,如:

GT:AD:DP:GQ:PL    0/1:6,5:11:99:138,0,153
  • GT:表示樣品的基因型,對於二倍體生物,GT值表示的是樣本在這個位點所攜帶的兩個等位基因。0表示跟REF一樣,1表示跟ALT一樣,2表示有第二個ALT;當只有一個ALT等位基因時:0/0表示純合子並跟REF一致;0/1表示雜合子,有兩個allele,一個是ALT,另一個是REF;1/1表示純合子並都為ALT
  • AD:兩個以逗號分隔的值,分別表示覆蓋到REF和ALT鹼基的reads數,也就是REF和ALT對應的測序深度
  • DP:表示覆蓋在這個位點的總reads數,也就是這個位點的測序深度(並不是指具體有多少個reads數量,而是大概滿足一定質量值要求的reads數)
  • PL:三個逗號分隔的值,分別對應該位點的三個基因型0/0,0/1,1/1的沒經過先驗的標准化Phred-scaled似然值(L),L=-10lgP,P為支持該基因型的概率,3個概率總和為1;因此,L這個值越小,支持概率就越大,也就是說是這個基因型的可能性越大。
  • GQ:表示基因型的質量值,Phred格式(Phred_scaled)的質量值,Phred值 = -10 * log (1-p) p為基因型存在的概率,表示該位點基因型存在的可能性。

INFO 信息列

AC=1;AF=0.500;AN=2;BaseQRankSum=0.748;ClippingRankSum=0.000;DB;DP=34;ExcessHet=3.0103;FS=3.424;MLEAC=1;MLEAF=0.500;MQ=31.07;MQRankSum=-0.087;QD=11.87;ReadPosRankSum=-1.349;SOR=2.636
AC=2;AF=1.00;AN=2;DB;DP=14;ExcessHet=3.0103;FS=0.000;MLEAC=2;MLEAF=1.00;MQ=31.60;QD=29.36;SOR=5.421
  • AC:表示該Allele的數目,Allele數目為1表示雙倍體的樣本在該位點只有1個等位基因發生了突變
  • AF:表示Allele的頻率,Allele頻率為0.5表示雙倍體的樣本在該位點只有50%的等位基因發生了突變
  • AN:表示Allele的總數目
    • 即:對於1個diploid sample而言:
    • 則基因型 0/1 表示sample為雜合子,Allele數為1(雙倍體的sample在該位點只有1個等位基因發生了突變),Allele的頻率為0.5(雙倍體的 sample在該位點只有50%的等位基因發生了突變),總的Allele為2;
    • 基因型 1/1 則表示sample為純合的,Allele數為2,Allele的頻率為1,總的Allele為2。
  • DP:樣本在這個位置的reads覆蓋度,是一些reads被過濾掉后的覆蓋度(跟上面提到的DP類似)
  • FS:使用Fisher’s精確檢驗來檢測strand bias而得到的Fhred格式的p值,值越小越好
  • MQ:表示覆蓋序列質量的均方值RMS Mapping Quality
  • BaseQRankSum:Z-score from Wilcoxon rank sum test of Alt Vs. Ref base qualities
  • ClippingRankSum:Z-score From Wilcoxon rank sum test of Alt vs. Ref number of hard clipped bases
  • ExcessHet:Phred-scaled p-value for exact test of excess heterozygosity
  • MLEAC:Maximum likelihood expectation (MLE) for the allele counts (not necessarily the same as the AC), for each ALT allele, in the same order as listed
  • MLEAF:Maximum likelihood expectation (MLE) for the allele frequency (not necessarily the same as the AF), for each ALT allele, in the same order as listed
  • MQRankSum:Z-score From Wilcoxon rank sum test of Alt vs. Ref read mapping qualities
  • QD:Variant Confidence/Quality by Depth
  • ReadPosRankSum:Z-score from Wilcoxon rank sum test of Alt vs. Ref read position bias
  • SOR:Symmetric Odds Ratio of 2x2 contingency table to detect strand bias


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM