1、PED簡介
PED文件格式是廣泛使用的用於連鎖系譜數據分析的格式,並用作plink程序的輸入。PLINK是一個免費的,開源的全基因組關聯分析工集,旨在以高計算效率的方式執行一系列基本的,大規模的分析。PED能夠處理二倍體SNP數據。
空格(空格或制表符)分隔的文本文件*.ped 每一行對應一個individual 以下前6列是必須的(id是字母數字): o Family ID (Family ID用來表示家族,同一個家族用同一個family ID表示) o Individual ID (用來表示個體,family ID和Individual ID連起來必須能夠唯一表示每個樣本) o Paternal ID (表示父本ID,) o Maternal ID (母本ID,) o Sex (1代表male,2代表female, 其他數字表示unknown。) o Phenotype (代表表型,其中表型可以是離散型的(比如關聯性狀),也可以是連續型的(比如數量性狀),plink會自動識別對應的類型。通過以上6個必須的字段,可以完整的映射到某一性狀的家系圖上。) 關聯性狀應該這樣編碼: o -9 missing o 0 missing o 1 unaffected o 2 affected column 7 onwards: Genotypes (對於關聯分析而言,除了表型相關信息,還需要基因型信息) any character (e.g.: 1,2,3,4 or A,C,G,T or anything else) missing genotype: 0 所有的標記必須是雙等位的(二倍體)。要么兩個等位基因都缺失,要么兩者都不缺失。單倍體數據:編碼為二倍體純合子。兩個等位基因依次出現。 Comments: line starts with #
在ped
文件中,每個snp位點的基因型需要兩列來表示,分別表示major allel 和 minor allel。在表示基因型時,既可以使用A,C,G,T字母的形式,也可以采用1,2數字編碼的形式。默認情況下,用0
來表示基因型的缺失。
2、MAP簡介
MAP文件的每一行描述一個 single marker且必須包含4列:
chromosome (1-22, X, Y, MT or 0 if unplaced) #染色體編號為數字, 未知為0 rs# or snp identifier #SNP名稱為字符或數字, 可以從1編號, 注意要和bed文件SNP列一一對應 Genetic distance (morgans) (missing: 0) #遺傳距離(摩爾) SNP物理坐標
MAP必須包含與PED文件中一樣多的markers。‘
PED文件中的標記不需要按照基因組順序排列,但是MAP應該與PED文件maker順序一致
PGDSpider軟件中對於不同的文件格式有一個詳細的說明。
http://pngu.mgh.harvard.edu/~purcell/plink/data.shtml#ped