理解 PLINK格式

基因型数据存储的基础
plink
gwas
bioinformatics
Author
Published

Saturday, December 21, 2024

在基因组学研究中,PLINK 是一个广泛使用的工具,用于关联分析、基因型数据处理以及数据格式转换。PLINK 以多种文件格式存储基因型数据,每种格式适用于不同的应用场景。这里,本文将介绍 PLINK 的几种主要数据格式及其特点,帮助大家更好地理解和使用这些文件。

PLINK

数据格式及其特点

ped/map 格式

这是 PLINK 的原始标准文本格式,用于存储完整的基因型数据表。

.ped 文件

.ped 文件包含每个样本的详细基因型数据,无标题行,每行代表一个样本。每行的前六列是样本的基本信息,后续每两个字段表示一个 SNP 的等位基因。

0 HG00403 0 0 0 -9 G G T T A A G A C C
0 HG00404 0 0 0 -9 G G T T A A G A T C

字段说明:第 1-6 列:样本信息(家庭 ID、样本 ID、父母 ID、性别、表型等)。第 7 列及之后:每个 SNP 的两个等位基因(如 G G 表示基因型为 GG)。

.map 文件

.map 文件存储每个变异位点的信息,无标题行,每行代表一个 SNP。

1       1:13273:G:C     0       13273
1       1:14599:T:A     0       14599

字段说明:第 1 列:染色体编号。第 2 列:变异 ID(格式为染色体:位置:参考等位基因:替代等位基因)。第 3 列:遗传距离(默认为 0)。第 4 列:物理位置(以碱基为单位)。

优点:直观易读,便于检查数据。缺点:文件体积大,尤其是对于大规模数据。

fam/bim/bed 格式

这是 PLINK 的二进制格式,包含与 ped/map 相同的信息,但文件更小,适合大数据处理。

.fam 文件

样本基本信息,内容与 .ped 文件的前六列一致。

0 HG00403 0 0 0 -9
0 HG00404 0 0 0 -9
.bim 文件

SNP 基本信息,与 .map 文件内容相似,但增加了等位基因列。

1       1:13273:G:C     0       13273   C       G
1       1:14599:T:A     0       14599   A       T
.bed 文件

二进制格式的基因型矩阵,每个位点的数据存储为二进制编码。

00 6c 1b 01 ff ff bf bf ff ff ff ef fb ff ff ff fe

优点:存储效率高,适合大规模基因型数据的分析。缺点:文件内容不可直接阅读,需要通过软件解析。

psam/pvar/pgen 格式

这是 PLINK2 引入的新格式,提供更灵活的数据管理和高效的处理能力。

.psam 文件:存储个体信息。.pvar 文件:存储变异信息,与 .bim 文件相似。.pgen 文件:存储基因型矩阵的二进制文件。

格式的适用场景

格式集合 特点 适用场景
ped/map 文本格式,直观易读,但占用空间大 数据检查、数据格式初学者
fam/bim/bed 二进制格式,存储高效,需借助软件解析 大规模数据分析,如GWAS
psam/pvar/pgen PLINK2格式,兼容性强,处理速度快 需要复杂分析和高性能计算时