群體遺傳之ped格式


1、PED簡介

PED文件格式是廣泛使用的用於連鎖系譜數據分析的格式,並用作plink程序的輸入。PLINK是一個免費的,開源的全基因組關聯分析工集,旨在以高計算效率的方式執行一系列基本的,大規模的分析。PED能夠處理二倍體SNP數據。

空格(空格或制表符)分隔的文本文件*.ped
每一行對應一個individual
以下前6列是必須的(id是字母數字):
  o Family ID (Family ID用來表示家族,同一個家族用同一個family ID表示)
  o Individual ID (用來表示個體,family ID和Individual ID連起來必須能夠唯一表示每個樣本)
  o Paternal ID (表示父本ID,)
  o Maternal ID  (母本ID,)
  o Sex (1代表male,2代表female, 其他數字表示unknown。) 
  o Phenotype (代表表型,其中表型可以是離散型的(比如關聯性狀),也可以是連續型的(比如數量性狀),plink會自動識別對應的類型。通過以上6個必須的字段,可以完整的映射到某一性狀的家系圖上。)
   關聯性狀應該這樣編碼:
  o -9 missing 
  o 0 missing 
  o 1 unaffected 
  o 2 affected 
column 7 onwards: Genotypes (對於關聯分析而言,除了表型相關信息,還需要基因型信息)
  any character (e.g.: 1,2,3,4 or A,C,G,T or anything else) 
  missing genotype: 0
  所有的標記必須是雙等位的(二倍體)。要么兩個等位基因都缺失,要么兩者都不缺失。單倍體數據:編碼為二倍體純合子。兩個等位基因依次出現。
Comments: line starts with # 

ped文件中,每個snp位點的基因型需要兩列來表示,分別表示major allel 和 minor allel。在表示基因型時,既可以使用A,C,G,T字母的形式,也可以采用1,2數字編碼的形式。默認情況下,用0來表示基因型的缺失。

2、MAP簡介

 MAP文件的每一行描述一個 single marker且必須包含4列:

chromosome (1-22, X, Y, MT or 0 if unplaced)   #染色體編號為數字, 未知為0
rs# or snp identifier  #SNP名稱為字符或數字,  可以從1編號, 注意要和bed文件SNP列一一對應
Genetic distance (morgans) (missing: 0)  #遺傳距離(摩爾)
SNP物理坐標

MAP必須包含與PED文件中一樣多的markers。‘

PED文件中的標記不需要按照基因組順序排列,但是MAP應該與PED文件maker順序一致

 

 

PGDSpider軟件中對於不同的文件格式有一個詳細的說明。

http://pngu.mgh.harvard.edu/~purcell/plink/data.shtml#ped


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM