预 GWAS 阶段的基因型数据 QC 流程

genotype data QC
plink
gwas
bioinformatics
genotype data
qc
Author
Published

Tuesday, December 24, 2024

在进行全基因组关联研究(GWAS)前,数据质量的控制(QC)是至关重要的一步。

预处理和质量控制可以确保我们使用的数据集干净、可靠,避免潜在的偏倚和错误。这里,我们将介绍如何在 GWAS 前进行基因型数据的 QC,确保数据的准确性和可靠性。

1. 计算缺失率(Missing Rate)与呼叫率(Call Rate)

在 GWAS 分析中,缺失数据可能会影响结果的准确性。基因型数据的质量首先需要评估每个样本和每个 SNP 的缺失率。

缺失率表示某个样本在所有标记位点的基因型缺失的比例;呼叫率表示某个 SNP 在所有样本中的基因型被成功识别的比例。样本缺失率:样本的基因型数据可能因技术问题、平台差异等因素缺失,需要计算每个样本的缺失率,并根据预设的阈值剔除缺失过多的样本。SNP 呼叫率:类似地,每个SNP的呼叫率需要计算。如果某些 SNP 在大多数样本中都没有成功呼叫,可以考虑排除这些 SNP。

在 PLINK 中,可以使用以下命令来计算样本的缺失率和 SNP 的呼叫率:

plink --bfile ${genotypeFile} --missing --out plink_missing

2. 计算等位基因频率(Allele Frequency)

等位基因频率是 GWAS 中重要的统计量,它表示某个特定等位基因在样本中的出现频率。为了确保我们分析的是常见的变异,我们通常会设置最小等位基因频率(MAF)阈值。通常,筛选出 MAF 低于 1% 的 SNP 是合理的,因为低频变异可能会增加假阳性。

在 PLINK 中,计算等位基因频率非常简单:

plink --bfile ${genotypeFile} --freq --out plink_freq

3. Hardy-Weinberg 平衡精确检验(Hardy-Weinberg Equilibrium Test)

Hardy-Weinberg 平衡(HWE)检验是 GWAS 中常用的一种质量控制手段。根据 HWE 定律,如果一个群体处于均衡状态,则基因型的分布应该符合预期的频率。如果某个 SNP 的基因型偏离了 HWE,可能是因为样本污染、系统性错误或者是与某些表型相关的变异。通常,对于病例对照研究,HWE检验的p值阈值设定为\(10^{-6}\)

使用 PLINK 执行 HWE 检验:

plink --bfile ${genotypeFile} --hwe 1e-6 --out plink_hwe

4. LD-Pruning

连锁不平衡(LD)修剪是为了去除那些高度相关的 SNP,减少冗余,确保分析中使用的 SNP 具有独立性。若 SNP 之间存在高度的 LD,它们可能会影响 GWAS 结果的准确性。通常使用 LD-pruning 来去除相关性高的 SNP。

在 PLINK 中,常用的 LD-pruning 命令如下:

plink --bfile ${genotypeFile} --indep-pairwise 50 5 0.2 --out plink_results

该命令会根据给定的窗口大小(50 个 SNP)、步长(每次移动 5 个 SNP)和 \(r^{2}\) 阈值(0.2),进行 LD 修剪。

5. 计算近交系数 F(Inbreeding F coefficient)

近交系数 F(F coefficient)用于衡量样本中的近交程度。较高的 F 值可能表示样本存在近交,而较低的 F 值可能表示样本污染。计算 F 值时,可以使用 PLINK 的 --het 命令,它会生成每个样本的观测和期望纯合子基因型数量,并计算 F 值。

plink --bfile ${genotypeFile} --het --out plink_results

输出结果中,F 值较高的样本可以考虑进一步检查或排除。常见的处理方法是将 F 值超过 3 个标准差(SD)的样本排除。

6. 数据管理(make-bed / recode)

为了便于后续分析,PLINK 提供了多种数据格式转换工具。最常用的格式是 BED 格式,它是 PLINK 的二进制格式,能够大大提高存储和计算效率。make-bed 将原始的 PED/MAP 文件转换为 BED 格式。通常在预处理数据时使用该命令。

plink --bfile ${genotypeFile} --make-bed --out plink_bed

bash

recode 如果你需要将数据转回 PED 格式或其他格式,可以使用 recode 命令。

plink --bfile ${genotypeFile} --recode --out plink_recode

这些命令帮助将数据从一种格式转换为另一种格式,确保数据可以被其他分析工具有效读取。

总结

基因型数据的 QC 是 GWAS 分析中的基础步骤,它确保数据的可靠性和准确性。通过执行上述步骤,你可以在 GWAS 分析前排除掉缺失值过多、低频变异、偏离 Hardy-Weinberg 平衡的 SNP,以及冗余的高度 LD SNP。高质量的数据是可靠分析的前提,只有确保数据质量,才能得出科学、可靠的结果。