其他分享
首页 > 其他分享> > 连锁不平衡LD以及相关式子的推导

连锁不平衡LD以及相关式子的推导

作者:互联网

看了几篇LD的相关文章,都只有公式没有相关的解释,所以尝试自己理解一下。

简单点说,就是随机先后抛两枚骰子A,B,这两枚骰子的数字应该互不影响,我想抛出一个“A骰子是6,B骰子也是6”的情况(6,6),理论上概率是1/36。但我现在有两枚骰子很特殊,骰子A抛出6点的时候,骰子B一定也是6点,我手上的两枚骰子出现(6,6)的概率就是1/6,而不是理论的1/36,这时候我手上的两枚骰子就是“连锁不平衡”。

假设在同一染色体上有临近的两个双等位基因位点A和B,4个等位基因的频率分别为P_AP_aP_{B}P_b。我们就能画出如下表格: 

Bbtotal
AP_{AB}P_{Ab}P_A
aP_{aB}P_{ab}P_a
totalP_{B}P_b1

如果两个位点之间完全独立分离,那么单倍型AB的频率的期望值为P_A \cdot P_B,而如果观察到的实际频率为P_{AB},那么两个位点之间的连锁不平衡程度可以表达为如下式子:

D=P_{AB}-P_AP_B

只要D不等于0,就是连锁不平衡。

同理,利用上面表格里的数据,我们也能有如下代换

P_{AB}=P_AP_B+D

P_{Ab}=P_AP_b-D

P_{aB}=P_aP_B-D

P_{ab}=P_aP_b+D

这个D的范围是和等位基因A、B的频率挂钩的,我们没法用它来在等位基因间做比较。

知道P_A, P_B,D的范围该怎么算?

注意到我们之前有个表,只要让做一点小小的替换

Bb
AD+P_AP_B-D+P_A(1-P_B)
a-D+(1-P_A)P_B(1-P_A)(1-P_B)+D

由于每个格子里面都是基因型的频率,所以每个格子的取值范围都是≥0

计算就能得出D的范围

max(-P_AP_B,-P_aP_b)<D<min(P_AP_b, P_BP_a)

上面这个不等式中,我已经用P_a=1-P_AP_b=1-P_B代换过了。

因为D的范围不同,导致不同等位基因的D值不能做比较,那么一个显而易见的的想法就是将D的范围归一化,于是我们就有了一个D’:

D'=\left\{ \begin{aligned} \frac{D}{min(P_AP_B,P_aP_b)} , D<0\\ \frac{D}{min(P_AP_b,P_aP_B)}, D>0 \end{aligned} \right.

另一种归一化的思想是:

r^2=\frac{D^2}{P_AP_aP_BP_b}

r2 =1表示两个等位基因提供完全相同的信息。

标签:LD,7D%,推导,等位基因,骰子,20%,频率,位点,式子
来源: https://blog.csdn.net/rubppp/article/details/121265071