连锁不平衡(Linkage Disequilibrium, LD)
连锁不平衡(LD) 是群体遗传学和基因组学中的一个基本概念,用于描述两个或多个遗传标记(通常是单核苷酸多态性,SNP)之间的非随机关联。当某些 SNP 的等位基因 (allele)的组合在一个群体中出现的频率高于根据单独等位基因频率计算的预期频率时,这种现象被称为连锁不平衡。LD 是基因组关联分析(GWAS)和基因组选择等研究的重要基础,用于识别与复杂性状相关的遗传变异,并帮助推断遗传位点之间的关系。
连锁是指基因组中靠得很近的基因或遗传标记倾向于一起遗传的现象,这是由染色体重组的随机性和空间上的接近性引起的。而 LD 则描述了在一个群体中等位基因组合的统计学偏差,如果遗传标记之间的组合频率偏离预期(非随机关联),就表明存在 LD。
LD的数学描述
连锁不平衡通常用两个指标来描述:\(D'\) 和 \(r^2\)。
1. 不平衡系数(D)
定义两个标记 \(A\) 和 \(B\) 的四种可能等位基因组合及其频率: - \(A_1B_1\), \(A_1B_2\), \(A_2B_1\), \(A_2B_2\),分别表示两位点上的不同等位基因组合。
设: - \(P(A_1B_1)\):观察到 \(A_1\) 和 \(B_1\) 同时出现的频率。 - \(P(A_1)\):\(A_1\) 的边际频率。 - \(P(B_1)\):\(B_1\) 的边际频率。
则不平衡系数 \(D\) 定义为:
\[ D = P(A_1B_1) - P(A_1)P(B_1) \]
- 当 \(D = 0\) 时,标记之间没有 LD,即独立遗传。
- 当 \(D \neq 0\) 时,标记之间存在 LD。
然而,由于 \(D\) 的值依赖于等位基因的频率,其绝对值没有固定的范围,因此通常会对其进行标准化。
2. 标准化不平衡系数(\(D'\))
\[ D' = \frac{D}{D_{\text{max}}} \]
其中 \(D_{\text{max}}\) 是 \(D\) 的可能最大值或最小值,取决于等位基因频率。
- \(D'\) 的范围为 [-1, 1]。
- \(D' = 1\) 表示完全连锁不平衡。
3. 相关系数(\(r^2\))
但在群体遗传学中,其实我们更常用 \(r^2\) 来衡量 LD:
\[ r^2 = \frac{D^2}{P(A_1)P(A_2)P(B_1)P(B_2)} \]
- \(r^2\) 的范围为 [0, 1]。
- \(r^2 = 0\):标记之间完全独立。
- \(r^2 = 1\):标记之间完全关联。
- \(r^2\) 的值通常用于评估 GWAS 研究中的 SNP 冗余。