随着基因组学技术的进步,越来越多的研究采用测序技术进行遗传变异的检测与分析。测序深度(Sequencing Depth)是影响基因组学数据质量的重要指标之一,它直接关系到遗传变异的准确识别以及后续 GWAS 和多组学研究的结果可靠性。
什么是测序深度?
测序深度通常用「X」表示,它指的是基因组中每个碱基位置被测序读取(Reads)的平均次数。比如,10X测序深度意味着每个位点平均被测序10次。
更高的测序深度通常意味着更可靠的数据,因为位点覆盖次数越多,测序错误的概率越小,变异检测的准确性越高。
测序深度对 GWAS 分析的影响
1. 基因型准确性
GWAS 需要准确识别个体基因型(Genotype),而基因型准确性直接受测序深度的影响。当测序深度较低(如 0.1x)时,个体基因型可能无法直接可靠地确定,但可以通过群体信息推测(Imputation)。推测准确性通常用 R² 表示,R² 越接近 1,表示推测基因型越可靠。
例如,Liu, S. et al. (Liu et al. 2024) 研究直接从群体水平估计等位基因频率与多态性,发现即使测序深度低至 0.1x 超低测序深度(如 NIPT 数据)下,基因型推测的 R² 仍可超过 0.84。这意味着即使测序深度不高,通过推测也可以实现有效样本量的大幅增加,例如 10 万个低深度样本,实际有效样本量仍能达到 8.4 万个。
2. 避免冗余信号(LD聚类)
在 GWAS 分析中,通常会对高度相关的 SNP(连锁不平衡,LD)进行聚类(LD clumping),避免冗余的关联信号。当测序深度不充分时,LD 结构的识别可能不准确,导致聚类失效或误导性结果。因此,适当提高测序深度有助于更准确地揭示 LD 结构,减少假阳性信号。
测序深度在多组学研究中的重要性
1. 单倍型(Haplotype)构建的准确性
高质量的单倍型(High-quality haplotype)构建依赖于较高的测序深度或高质量的数据来源(如长读长测序技术)。单倍型能够帮助更精确地理解遗传变异的连锁关系,在 GWAS、eQTL、孟德尔随机化(MR)分析研究中起关键作用。
2. MR 分析
孟德尔随机化利用 SNP 作为工具变量,研究暴露因素与疾病结局的因果关系。SNP 的准确识别与基因型调用至关重要,测序深度的提高能大幅提升工具变量的有效性。
如何确定合适的测序深度?
研究目的:不同研究需求的测序深度不同,例如全基因组研究推荐≥30X,超低深度测序可能适合大规模群体推测分析。
经费限制:高深度测序成本较高,需在精度与成本之间权衡。
分析需求:是否需要精细 LD 结构、单倍型精确构建、个体级基因型,决定了所需的测序深度水平。