vcf格式


    Variant Call Format(VCF)是一個用於存儲基因序列突變信息的文本格式。表示單鹼基突變, 插入/缺失, 拷貝數變異和結構變異等。BCF格式文件是VCF格式的二進制文件。

  CHROM [chromosome]: 染色體名稱。

  POS [position]: 參考基因組突變鹼基位置,如果是INDEL(插入缺失),位置是INDEL的第一個鹼基位置。

  ID [identifier]: 突變的名稱。若沒有,則用‘.’表示其為一個新變種。

  REF [reference base(s)]: 參考染色體的鹼基,必須是ATCGN中的一個,N表示不確定鹼基。

  ALT [alternate base(s)]: 與參考序列比較,發生突變的鹼基;多個的話以“,”連接, 可選符號為ATCGN*,大小寫敏感。

  QUAL [quality]: Phred標准下的質量值,表示在該位點存在突變的可能性;該值越高,則突變的可能性越大;計算方法:Phred值 = -10 * log (1-p) p為突變存在的概率。

  FILTER [filter status]: GATK使用其它的方法進行過濾后得到的過濾結果,如果通過則該值為“PASS”;若此突變不可靠,則該項不為”PASS”或”.”。

  INFO [additional information]: 表示變異的詳細信息

  DP [read depth]: 樣本在這個位置的一些reads被過濾掉后的覆蓋度

  DP4 : 高質量測序鹼基,位於REF或者ALT前后

  MQ [mapping quality]: 表示覆蓋序列質量的均方值RMS

  FQ : Phred值關於所有樣本相似的可能性

  AF1 [allele frequency]: 表示Allele(等位基因)的頻率,AF1為第一個ALT等位基因發生頻率的可能性評估

  AC1 [allele count]: 表示Allele(等位基因)的數目,AC1為對第一個ALT等位基因計數的最大可能性評估

  AN [allele number]: 表示Allele(等位基因)的總數目

  IS : 插入缺失或部分插入缺失的reads允許的最大數量

  AC [allele count]: 表示該Allele(等位基因)的數目

  G3 : ML 評估基因型出現的頻率

  HWE : chi^2基於HWE的測試p值和G3

  CLR : 在受到或者不受限制的情況下基因型出現可能性的對數值

  UGT : 最可能不受限制的三種基因型結構

  CGT : 最可能受限制三種基因型結構

  PV4 : 四種P值的誤差,分別是(strand、baseQ、mapQ、tail distance bias)

  INDEL : 表示該位置的變異是插入缺失

  PC2 : 非參考等位基因的Phred(變異的可能性)值在兩個分組中大小不同

  PCHI2 : 后加權chi^2,根據p值來測試兩組樣本之間的聯系

  QCHI2 : Phred標准下的PCHI2.

  PR : 置換產生的一個較小的PCHI2

  QBD [quality by depth]: 表示測序深度對質量的影響

  RPB [read position bias]: 表示序列的誤差位置

  MDV : 樣本中高質量非參考序列的最大數目

  VDB [variant distance bias]: 表示RNA序列中過濾人工拼接序列的變異誤差范圍

  GT [genotype]: 表示樣品的基因型。兩個數字中間用‘/’分 開,這兩個數字表示雙倍體的sample的基因型。

  0 表示樣品中有ref的allele

  1 表示樣品中variant的allele

  2表示有第二個variant的allele

  0/0 表示sample中該位點為純合的,和ref一致

  0/1 表示sample中該位點為雜合的,有ref和variant兩個基因型

  1/1 表示sample中該位點為純合的,和variant一致

  GQ [genotype quality]: 表示基因型的質量值。Phred格式的質量值,表示在該位點該基因型存在的可能性;該值越高,則Genotype的可能性越 大;計算方法:Phred值 = -10 * log (1-p) p為基因型存在的概率。

  GL : 三種基因型(RR RA AA)出現的可能性,R表示參考鹼基,A表示變異鹼基

  DV : 高質量的非參考鹼基

  SP : Phred的p值誤差線

  PL [provieds the likelihoods of the given genotypes]: 指定的三種基因型的質量值。三種指定的基因型為(0/0,0/1,1/1),這三種基因型的概率總和為1。該值越大,表明為該種基因型的可能性越小。 Phred值 = -10 * log (p) p為基因型存在的概率。

  FORMAT : 用於描述樣本的(可選)可擴展的字段列表

  SAMPLEs : 對於文件中描述的每一個(可選)樣本,給出了在格式中列出的字段的值


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM