本文介绍如何基于 UK Biobank 数据和 DNAnexus 平台,使用 SAIGE 工具在大规模基因组关联研究(GWAS)中分析遗传变异与性状之间的关联。SAIGE 的简要介绍参考这里。
流程概览
SAIGE GWAS 分析分为以下步骤:
- 准备数据:合并自测基因型数据
- 生成 GRM 模型和方差比文件
- 执行单变异关联测试
- (可选)合并结果文件
Step 1: 合并自测基因型数据
在第一步中,我们将 22 条常染色体的基因型数据文件合并为 PLINK 格式的文件集(.bim
, .bed
, .fam
),为后续分析生成输入文件。
使用 Swiss Army Knife (SAK) 应用
在 DNAnexus 平台上,使用 Swiss Army Knife (SAK) 应用完成文件合并:
- 输入文件:上传或选择包含染色体 1 至 22 的 PLINK 文件。
- 命令行代码:
ls *.bed | sed -e 's/.bed//g'> files_to_merge.txt;
plink --merge-list files_to_merge.txt --make-bed --out ukb_cal_chr1_22_v2_merged;
rm files_to_merge.txt;
这段代码会创建一个包含所有待合并文件的列表,并使用 PLINK 将其合并为单一文件集。
- 输出:
ukb_cal_chr1_22_v2_merged.bed
、.bim
和.fam
文件,作为下一步的输入。
Step 2: 生成 GRM 模型和方差比文件
使用 saige_gwas_grm
应用生成遗传相关矩阵(GRM)模型文件和方差比文件。这些文件用于混合模型的拟合和关联测试。
输入文件
PLINK 文件集:
ukb_cal_chr1_22_v2_merged
文件。表型文件:包含样本 ID、表型和协变量(如性别、年龄)的文件,要求与基因型数据匹配。
命令实例
dx run saige_gwas_grm \
-igenotype_file=ukb_cal_chr1_22_v2_merged.bed \
-iphenotype_file=phenotype.txt \
-icovariate_columns=age,sex \
-imem_instance=mem3_ssd1_v2_x32
Step 3: 执行单变异关联测试
单变异关联测试使用 saige_gwas_svat
应用逐染色体进行分析,计算每个变异与表型之间的关联。
批量运行
对于 UK Biobank 数据,每条染色体的数据存储在单独的 BGEN 文件中,可以使用批量模式运行:
选择 BGEN 文件和索引文件:每条染色体的
.bgen
和.bgen.bgi
文件。运行命令:
dx run saige_gwas_svat \ -igenotypes_bgen=chr*.bgen \ -igenotypes_bgen_index=chr*.bgen.bgi \ -imodel_rda=model.rda \ -ivariance_ratio_txt=variance_ratio.txt \ -iphenotype_file=phenotype.txt \ -imem_instance=mem3_ssd3_v2_x24
输出文件
- 每条染色体的关联结果文件,例如:
saige_step2_ukb_imp_chr1_v3.txt
。
Step 4: 合并结果文件
可选地将所有染色体的结果文件合并为单一文件,以便进一步分析(如显著性筛选和孟德尔随机化分析)。
使用 SAK 应用
在 SAK 的命令行中执行以下代码:
head -1 saige_step2_ukb_imp_chr1_v3.txt > saige_step2_ukb_imp_all_chr.txt;
tail -n +2 -q saige_step2_ukb_imp_chr*_v3.txt >> saige_step2_ukb_imp_all_chr.txt;
gzip saige_step2_ukb_imp_all_chr.txt;
后续分析
显著性筛选:根据 GWAS 的统计学标准筛选显著变异(如 p 值 <5×10−8)。
下游分析:
- 使用显著变异进行孟德尔随机化分析。
- 进行生物学功能注释,识别潜在的致病基因或路径。