0 HG00403 0 0 0 -9 G G T T A A G A C C
0 HG00404 0 0 0 -9 G G T T A A G A T C
在基因组学研究中,PLINK 是一个广泛使用的工具,用于关联分析、基因型数据处理以及数据格式转换。PLINK 以多种文件格式存储基因型数据,每种格式适用于不同的应用场景。这里,本文将介绍 PLINK 的几种主要数据格式及其特点,帮助大家更好地理解和使用这些文件。
PLINK 数据的基本组成
在 PLINK 中,基因型数据的存储由三部分信息组成:
- 个体信息:每个研究对象的基本信息,如样本 ID、性别等。
- 变异信息:每个 SNP 的基本信息,如染色体位置和碱基变化。
- 基因型矩阵:每个样本在每个位点上的基因型数据。
为了存储和处理这些数据,PLINK 提供了多种格式集合,包括 ped/map、fam/bim/bed 和 psam/pvar/pgen。
数据格式及其特点
ped/map 格式
这是 PLINK 的原始标准文本格式,用于存储完整的基因型数据表。
.ped 文件
.ped 文件包含每个样本的详细基因型数据,无标题行,每行代表一个样本。每行的前六列是样本的基本信息,后续每两个字段表示一个 SNP 的等位基因。
字段说明:第 1-6 列:样本信息(家庭 ID、样本 ID、父母 ID、性别、表型等)。第 7 列及之后:每个 SNP 的两个等位基因(如 G G
表示基因型为 GG)。
.map 文件
.map 文件存储每个变异位点的信息,无标题行,每行代表一个 SNP。
1 1:13273:G:C 0 13273
1 1:14599:T:A 0 14599
字段说明:第 1 列:染色体编号。第 2 列:变异 ID(格式为染色体:位置:参考等位基因:替代等位基因)。第 3 列:遗传距离(默认为 0)。第 4 列:物理位置(以碱基为单位)。
优点:直观易读,便于检查数据。缺点:文件体积大,尤其是对于大规模数据。
fam/bim/bed 格式
这是 PLINK 的二进制格式,包含与 ped/map 相同的信息,但文件更小,适合大数据处理。
.fam 文件
样本基本信息,内容与 .ped 文件的前六列一致。
0 HG00403 0 0 0 -9
0 HG00404 0 0 0 -9
.bim 文件
SNP 基本信息,与 .map 文件内容相似,但增加了等位基因列。
1 1:13273:G:C 0 13273 C G
1 1:14599:T:A 0 14599 A T
.bed 文件
二进制格式的基因型矩阵,每个位点的数据存储为二进制编码。
00 6c 1b 01 ff ff bf bf ff ff ff ef fb ff ff ff fe
优点:存储效率高,适合大规模基因型数据的分析。缺点:文件内容不可直接阅读,需要通过软件解析。
psam/pvar/pgen 格式
这是 PLINK2 引入的新格式,提供更灵活的数据管理和高效的处理能力。
.psam 文件:存储个体信息。.pvar 文件:存储变异信息,与 .bim 文件相似。.pgen 文件:存储基因型矩阵的二进制文件。
格式的适用场景
格式集合 | 特点 | 适用场景 |
---|---|---|
ped/map | 文本格式,直观易读,但占用空间大 | 数据检查、数据格式初学者 |
fam/bim/bed | 二进制格式,存储高效,需借助软件解析 | 大规模数据分析,如GWAS |
psam/pvar/pgen | PLINK2格式,兼容性强,处理速度快 | 需要复杂分析和高性能计算时 |