使用 SAIGE 进行 GWAS 分析的详细流程

saige

gwas

genomics

一种用于大规模基因组关联研究的高效工具

Author

Zhen Lu

Published

Monday, December 2, 2024

本文介绍如何基于 UK Biobank 数据和 DNAnexus 平台，使用 SAIGE 工具在大规模基因组关联研究（GWAS）中分析遗传变异与性状之间的关联。SAIGE 的简要介绍参考这里。

流程概览

SAIGE GWAS 分析分为以下步骤：

准备数据：合并自测基因型数据
生成 GRM 模型和方差比文件
执行单变异关联测试
（可选）合并结果文件

Step 1: 合并自测基因型数据

在第一步中，我们将 22 条常染色体的基因型数据文件合并为 PLINK 格式的文件集（.bim, .bed, .fam），为后续分析生成输入文件。

使用 Swiss Army Knife (SAK) 应用

在 DNAnexus 平台上，使用 Swiss Army Knife (SAK) 应用完成文件合并：

输入文件：上传或选择包含染色体 1 至 22 的 PLINK 文件。
命令行代码：

ls *.bed | sed -e 's/.bed//g'> files_to_merge.txt;
plink --merge-list files_to_merge.txt --make-bed --out ukb_cal_chr1_22_v2_merged;
rm files_to_merge.txt;

这段代码会创建一个包含所有待合并文件的列表，并使用 PLINK 将其合并为单一文件集。

输出：ukb_cal_chr1_22_v2_merged.bed、.bim 和 .fam 文件，作为下一步的输入。

Step 2: 生成 GRM 模型和方差比文件

使用 saige_gwas_grm 应用生成遗传相关矩阵（GRM）模型文件和方差比文件。这些文件用于混合模型的拟合和关联测试。

输入文件

PLINK 文件集：ukb_cal_chr1_22_v2_merged 文件。
表型文件：包含样本 ID、表型和协变量（如性别、年龄）的文件，要求与基因型数据匹配。

命令实例

dx run saige_gwas_grm \
  -igenotype_file=ukb_cal_chr1_22_v2_merged.bed \
  -iphenotype_file=phenotype.txt \
  -icovariate_columns=age,sex \
  -imem_instance=mem3_ssd1_v2_x32

Step 3: 执行单变异关联测试

单变异关联测试使用 saige_gwas_svat 应用逐染色体进行分析，计算每个变异与表型之间的关联。

批量运行

对于 UK Biobank 数据，每条染色体的数据存储在单独的 BGEN 文件中，可以使用批量模式运行：

选择 BGEN 文件和索引文件：每条染色体的 .bgen 和 .bgen.bgi 文件。

运行命令：

dx run saige_gwas_svat \
  -igenotypes_bgen=chr*.bgen \
  -igenotypes_bgen_index=chr*.bgen.bgi \
  -imodel_rda=model.rda \
  -ivariance_ratio_txt=variance_ratio.txt \
  -iphenotype_file=phenotype.txt \
  -imem_instance=mem3_ssd3_v2_x24

输出文件

每条染色体的关联结果文件，例如：saige_step2_ukb_imp_chr1_v3.txt。

Step 4: 合并结果文件

可选地将所有染色体的结果文件合并为单一文件，以便进一步分析（如显著性筛选和孟德尔随机化分析）。

使用 SAK 应用

在 SAK 的命令行中执行以下代码：

head -1 saige_step2_ukb_imp_chr1_v3.txt > saige_step2_ukb_imp_all_chr.txt;
tail -n +2 -q saige_step2_ukb_imp_chr*_v3.txt >> saige_step2_ukb_imp_all_chr.txt;
gzip saige_step2_ukb_imp_all_chr.txt;

后续分析

显著性筛选：根据 GWAS 的统计学标准筛选显著变异（如 p 值 <5×10⁻⁸）。
下游分析：

使用显著变异进行孟德尔随机化分析。
进行生物学功能注释，识别潜在的致病基因或路径。

--- title: "\u4F7F\u7528 SAIGE \u8FDB\u884C GWAS \u5206\u6790\u7684\u8BE6\u7EC6\u6D41\u7A0B" date: 2024-12-02 description: "\u4E00\u79CD\u7528\u4E8E\u5927\u89C4\u6A21\u57FA\u56E0\u7EC4\u5173\u8054\ \u7814\u7A76\u7684\u9AD8\u6548\u5DE5\u5177" image: https://saigegit.github.io/SAIGE-doc/assets/img/saige-siage-gene-outline.png categories: - saige - gwas - genomics format: html: shift-heading-level-by: 1 include-in-header: - text: "<style type=\"text/css\">\nhr.dinkus {\n width: 50px;\n margin:\ \ 2em auto 2em;\n border-top: 5px dotted #454545;\n}\n\ndiv.column-margin+hr.dinkus\ \ {\n margin: 1em auto 2em;\n}\n</style>" --- [本文](https://documentation.dnanexus.com/science/scientific-guides/saige-gwas-walkthrough "SAIGE GWAS")介绍如何基于 UK Biobank 数据和 DNAnexus 平台，使用 **SAIGE** 工具在大规模基因组关联研究（GWAS）中分析遗传变异与性状之间的关联。SAIGE 的简要介绍参考[这里](https://mp.weixin.qq.com/s/pCfu0tJxvvRIHqtbK9eSug)。 ## **流程概览** SAIGE GWAS 分析分为以下步骤： 1. **准备数据：合并自测基因型数据** 2. **生成 GRM 模型和方差比文件** 3. **执行单变异关联测试** 4. **（可选）合并结果文件** ## **Step 1: 合并自测基因型数据** 在第一步中，我们将 22 条常染色体的基因型数据文件合并为 PLINK 格式的文件集（`.bim`, `.bed`, `.fam`），为后续分析生成输入文件。 ### **使用 Swiss Army Knife (SAK) 应用** 在 DNAnexus 平台上，使用 **Swiss Army Knife (SAK)** 应用完成文件合并： 1. **输入文件**：上传或选择包含染色体 1 至 22 的 PLINK 文件。 2. **命令行代码**： ```bash ls *.bed | sed -e 's/.bed//g'> files_to_merge.txt; plink --merge-list files_to_merge.txt --make-bed --out ukb_cal_chr1_22_v2_merged; rm files_to_merge.txt; ``` 这段代码会创建一个包含所有待合并文件的列表，并使用 PLINK 将其合并为单一文件集。 3. **输出**：`ukb_cal_chr1_22_v2_merged.bed`、`.bim` 和 `.fam` 文件，作为下一步的输入。 ## **Step 2: 生成 GRM 模型和方差比文件** 使用 **`saige_gwas_grm`** 应用生成遗传相关矩阵（GRM）模型文件和方差比文件。这些文件用于混合模型的拟合和关联测试。 ### **输入文件** 1. **PLINK 文件集**：`ukb_cal_chr1_22_v2_merged` 文件。 2. **表型文件**：包含样本 ID、表型和协变量（如性别、年龄）的文件，要求与基因型数据匹配。 ### 命令实例 ```bash dx run saige_gwas_grm \ -igenotype_file=ukb_cal_chr1_22_v2_merged.bed \ -iphenotype_file=phenotype.txt \ -icovariate_columns=age,sex \ -imem_instance=mem3_ssd1_v2_x32 ``` ## **Step 3: 执行单变异关联测试** 单变异关联测试使用 **`saige_gwas_svat`** 应用逐染色体进行分析，计算每个变异与表型之间的关联。 ### **批量运行** 对于 UK Biobank 数据，每条染色体的数据存储在单独的 BGEN 文件中，可以使用批量模式运行： 1. **选择 BGEN 文件和索引文件**：每条染色体的 **`.bgen`** 和 **`.bgen.bgi`** 文件。 2. **运行命令**： ```bash dx run saige_gwas_svat \ -igenotypes_bgen=chr*.bgen \ -igenotypes_bgen_index=chr*.bgen.bgi \ -imodel_rda=model.rda \ -ivariance_ratio_txt=variance_ratio.txt \ -iphenotype_file=phenotype.txt \ -imem_instance=mem3_ssd3_v2_x24 ``` ### **输出文件** - 每条染色体的关联结果文件，例如：`saige_step2_ukb_imp_chr1_v3.txt`。 ## **Step 4: 合并结果文件** 可选地将所有染色体的结果文件合并为单一文件，以便进一步分析（如显著性筛选和孟德尔随机化分析）。 ### **使用 SAK 应用** 在 SAK 的命令行中执行以下代码： ```bash head -1 saige_step2_ukb_imp_chr1_v3.txt > saige_step2_ukb_imp_all_chr.txt; tail -n +2 -q saige_step2_ukb_imp_chr*_v3.txt >> saige_step2_ukb_imp_all_chr.txt; gzip saige_step2_ukb_imp_all_chr.txt; ``` ## **后续分析** 1. **显著性筛选**：根据 GWAS 的统计学标准筛选显著变异（如 p 值 \<5×10^−8^）。 2. **下游分析**： - 使用显著变异进行孟德尔随机化分析。 - 进行生物学功能注释，识别潜在的致病基因或路径。