本文介绍如何基于 UK Biobank 数据和 DNAnexus 平台,使用 SAIGE 工具在大规模基因组关联研究(GWAS)中分析遗传变异与性状之间的关联。SAIGE 的简要介绍参考这里。
流程概览
SAIGE GWAS 分析分为以下步骤:
- 准备数据:合并自测基因型数据
- 生成 GRM 模型和方差比文件
- 执行单变异关联测试
- (可选)合并结果文件
Step 1: 合并自测基因型数据
在第一步中,我们将 22 条常染色体的基因型数据文件合并为 PLINK 格式的文件集(.bim, .bed, .fam),为后续分析生成输入文件。
使用 Swiss Army Knife (SAK) 应用
在 DNAnexus 平台上,使用 Swiss Army Knife (SAK) 应用完成文件合并:
- 输入文件:上传或选择包含染色体 1 至 22 的 PLINK 文件。
- 命令行代码:
ls *.bed | sed -e 's/.bed//g'> files_to_merge.txt;
plink --merge-list files_to_merge.txt --make-bed --out ukb_cal_chr1_22_v2_merged;
rm files_to_merge.txt;这段代码会创建一个包含所有待合并文件的列表,并使用 PLINK 将其合并为单一文件集。
- 输出:ukb_cal_chr1_22_v2_merged.bed、.bim和.fam文件,作为下一步的输入。
Step 2: 生成 GRM 模型和方差比文件
使用 saige_gwas_grm 应用生成遗传相关矩阵(GRM)模型文件和方差比文件。这些文件用于混合模型的拟合和关联测试。
输入文件
- PLINK 文件集: - ukb_cal_chr1_22_v2_merged文件。
- 表型文件:包含样本 ID、表型和协变量(如性别、年龄)的文件,要求与基因型数据匹配。 
命令实例
dx run saige_gwas_grm \
  -igenotype_file=ukb_cal_chr1_22_v2_merged.bed \
  -iphenotype_file=phenotype.txt \
  -icovariate_columns=age,sex \
  -imem_instance=mem3_ssd1_v2_x32Step 3: 执行单变异关联测试
单变异关联测试使用 saige_gwas_svat 应用逐染色体进行分析,计算每个变异与表型之间的关联。
批量运行
对于 UK Biobank 数据,每条染色体的数据存储在单独的 BGEN 文件中,可以使用批量模式运行:
- 选择 BGEN 文件和索引文件:每条染色体的 - .bgen和- .bgen.bgi文件。
- 运行命令: - dx run saige_gwas_svat \ -igenotypes_bgen=chr*.bgen \ -igenotypes_bgen_index=chr*.bgen.bgi \ -imodel_rda=model.rda \ -ivariance_ratio_txt=variance_ratio.txt \ -iphenotype_file=phenotype.txt \ -imem_instance=mem3_ssd3_v2_x24
输出文件
- 每条染色体的关联结果文件,例如:saige_step2_ukb_imp_chr1_v3.txt。
Step 4: 合并结果文件
可选地将所有染色体的结果文件合并为单一文件,以便进一步分析(如显著性筛选和孟德尔随机化分析)。
使用 SAK 应用
在 SAK 的命令行中执行以下代码:
head -1 saige_step2_ukb_imp_chr1_v3.txt > saige_step2_ukb_imp_all_chr.txt;
tail -n +2 -q saige_step2_ukb_imp_chr*_v3.txt >> saige_step2_ukb_imp_all_chr.txt;
gzip saige_step2_ukb_imp_all_chr.txt;后续分析
- 显著性筛选:根据 GWAS 的统计学标准筛选显著变异(如 p 值 <5×10−8)。 
- 下游分析: 
- 使用显著变异进行孟德尔随机化分析。
- 进行生物学功能注释,识别潜在的致病基因或路径。