使用 SAIGE 进行 GWAS 分析的详细流程

一种用于大规模基因组关联研究的高效工具
saige
gwas
genomics
Author
Published

Monday, December 2, 2024

本文介绍如何基于 UK Biobank 数据和 DNAnexus 平台,使用 SAIGE 工具在大规模基因组关联研究(GWAS)中分析遗传变异与性状之间的关联。SAIGE 的简要介绍参考这里

流程概览

SAIGE GWAS 分析分为以下步骤:

  1. 准备数据:合并自测基因型数据
  2. 生成 GRM 模型和方差比文件
  3. 执行单变异关联测试
  4. (可选)合并结果文件

Step 1: 合并自测基因型数据

在第一步中,我们将 22 条常染色体的基因型数据文件合并为 PLINK 格式的文件集(.bim, .bed, .fam),为后续分析生成输入文件。

使用 Swiss Army Knife (SAK) 应用

在 DNAnexus 平台上,使用 Swiss Army Knife (SAK) 应用完成文件合并:

  1. 输入文件:上传或选择包含染色体 1 至 22 的 PLINK 文件。
  2. 命令行代码
ls *.bed | sed -e 's/.bed//g'> files_to_merge.txt;
plink --merge-list files_to_merge.txt --make-bed --out ukb_cal_chr1_22_v2_merged;
rm files_to_merge.txt;

这段代码会创建一个包含所有待合并文件的列表,并使用 PLINK 将其合并为单一文件集。

  1. 输出ukb_cal_chr1_22_v2_merged.bed.bim 和 .fam 文件,作为下一步的输入。

Step 2: 生成 GRM 模型和方差比文件

使用 saige_gwas_grm 应用生成遗传相关矩阵(GRM)模型文件和方差比文件。这些文件用于混合模型的拟合和关联测试。

输入文件

  1. PLINK 文件集ukb_cal_chr1_22_v2_merged 文件。

  2. 表型文件:包含样本 ID、表型和协变量(如性别、年龄)的文件,要求与基因型数据匹配。

命令实例

dx run saige_gwas_grm \
  -igenotype_file=ukb_cal_chr1_22_v2_merged.bed \
  -iphenotype_file=phenotype.txt \
  -icovariate_columns=age,sex \
  -imem_instance=mem3_ssd1_v2_x32

Step 3: 执行单变异关联测试

单变异关联测试使用 saige_gwas_svat 应用逐染色体进行分析,计算每个变异与表型之间的关联。

批量运行

对于 UK Biobank 数据,每条染色体的数据存储在单独的 BGEN 文件中,可以使用批量模式运行:

  1. 选择 BGEN 文件和索引文件:每条染色体的 .bgen.bgen.bgi 文件。

  2. 运行命令

    dx run saige_gwas_svat \
      -igenotypes_bgen=chr*.bgen \
      -igenotypes_bgen_index=chr*.bgen.bgi \
      -imodel_rda=model.rda \
      -ivariance_ratio_txt=variance_ratio.txt \
      -iphenotype_file=phenotype.txt \
      -imem_instance=mem3_ssd3_v2_x24

输出文件

  • 每条染色体的关联结果文件,例如:saige_step2_ukb_imp_chr1_v3.txt

Step 4: 合并结果文件

可选地将所有染色体的结果文件合并为单一文件,以便进一步分析(如显著性筛选和孟德尔随机化分析)。

使用 SAK 应用

在 SAK 的命令行中执行以下代码:

head -1 saige_step2_ukb_imp_chr1_v3.txt > saige_step2_ukb_imp_all_chr.txt;
tail -n +2 -q saige_step2_ukb_imp_chr*_v3.txt >> saige_step2_ukb_imp_all_chr.txt;
gzip saige_step2_ukb_imp_all_chr.txt;

后续分析

  1. 显著性筛选:根据 GWAS 的统计学标准筛选显著变异(如 p 值 <5×10−8)。

  2. 下游分析

  • 使用显著变异进行孟德尔随机化分析。
  • 进行生物学功能注释,识别潜在的致病基因或路径。