如何计算连锁不平衡
LD值 D' R2 计算 几个遗传学基本概念 1。 连锁不平衡 2。 linkerd dimorphisms 3。 单倍型 4。 基因型的频率是如何计算的?(公式) 5。 等位基因的频率如何计算出来的?(公式) 连锁不平衡分析在连锁不平衡程度的评估,复杂疾病精细定位以及研究人类的历史和迁移中得到了越来越广泛的应用。 连锁不平衡又称等位基因关联(allelic association),其原理其实很简单。假定两个紧密连锁的位点1,2,各有两个等位型(A,a;B,b),那么在同一条染色体上将有四种可能的组合方式:A—B,A—b,a—B,和a—b。 假定等位型A的频率为Pa...全部
LD值 D' R2 计算 几个遗传学基本概念 1。 连锁不平衡 2。 linkerd dimorphisms 3。 单倍型 4。 基因型的频率是如何计算的?(公式) 5。 等位基因的频率如何计算出来的?(公式) 连锁不平衡分析在连锁不平衡程度的评估,复杂疾病精细定位以及研究人类的历史和迁移中得到了越来越广泛的应用。
连锁不平衡又称等位基因关联(allelic association),其原理其实很简单。假定两个紧密连锁的位点1,2,各有两个等位型(A,a;B,b),那么在同一条染色体上将有四种可能的组合方式:A—B,A—b,a—B,和a—b。
假定等位型A的频率为Pa,B的频率为Pb,那么如果不存在连锁不平衡(如组成单倍型的等位型间相互独立,随机组合)单倍型A—B的频率就应为PaPb。而如果A与B是相关联的,单倍型A—B的频率则应为PaPb+D,D是表示两位点间LD程度的值。
如果位点2上的等位型B与疾病易患性有关,那么将会观察到等位型A的频率在病人群体中高于对照群体。换句话说,等位型A与该疾病性状相关。事实上,可以检测遍布基因组中的大量遗传标记位点,或者候选基因附近的遗传标记来寻找到因为与致病位点距离足够近而表现出与疾病相关的位点,这就是等位基因关联分析或连锁不平衡定位基因的基本思想。
等位基因(alleles):同一位点上可能出现的基因,例如ABO血型基因 基因型(genotype):同一位点上两个等位基因的组合。基因频率(allele frequency):人群中一个等位基因占该位点全部基因的比例。
基因型频率(allele frequency):人群中特定基因型占该位点全部基因型的比例。 如同一位点上两个等位基因分别为A和a,则A的频率(p)和a的频率(q)的之和为1。即p +q=1A基因的频率为p,a基因的频率为q。
该位点的基因型有三种,分别是AA,aa和A a。 基因型为AA的频率=p×p 基因型为aa的频率=q×q 基因型为Aa的频率=2×p×q 单倍型也叫单体型,单体型(haplotype)是指一条染色体上紧密相连的两个或两个以上基因座一组等位基因的基因型,通常作为一个单位遗传不同基因座位的各等位基因在人群中以一定的频率出现。
在某一群体中,不同座位上某两个等位基因出现在同一条单元型上的频率与预期的随机频率之间存在明显差异的现象,称连锁不平衡 (linkage disequilibrium) 。由于 HLA 不同基因座位的某些等位基因经常连锁在一起遗传,而连锁的基因并非完全随机地组成单元型,有些基因总是较多地在一起出现,致使某些单元型在群体中呈现较高的频率,从而引起连锁不平衡。
非常感谢二位的解释,受益非浅呀。以后又什么在请教了。贴出来和大家一起学习: 假设在同一染色体上有临近的两个双等位基因位点A和B,4个等位基因的频率分别为PA、Pa、PB和Pb。如果两个位点之间完全独立分离,那么单倍型AB的频率的期望值为PA*PB,而如果观察到的实际频率为PAB ,那么两个位点之间的连锁不平衡程度可以表达为如下式子: D=PAB-PA*PB 虽然D能够很好的表达LD的基本含义,但是由于其严格依赖于等位基因频率(allele frequency),故不适合应用于表述实际的LD强度尤其是进行不同研究的LD值的相互比较。
几个常用于度量LD的符号中,最重要的是D’和r2,两者都是基于D,各有各的特点及用途。他们的数学表述如下式子: D’和r2值为零时,连锁完全平衡; D’和r2值为1时,连锁完全不平衡 D’=D/DMax Dmax=min(PAPb,PaPB) D’=D/Dmax 对于A、B两个位点,AI、BI两个等位基因连锁出现的频率为PII,AI、BI、A2、B2的频率分别为p 1,q 1,p2,q2; 其中D=PII-pIqI,Dmax=min(p1q2,p2qI) r2 =D/ PA*PB*Pa*Pb 当两个位点组成的可能4种单倍型只出现其中3种时,D’=1,即两个位点处于“完全连锁不平衡(complete LD)”。
而D’,D’的数值究竟表征了多大程度的连锁不平衡,是很难做出准确判断的。另外,D’一个的重要特点是严格依赖于样品量的大小。如果样品量太小,D’值的实际含义很容易被“夸大”,尤其某个位点的其中一个等位基因的频率很低的时候。
因此,较高D’值的背后,实际上可能是连锁不平衡程度很低的两个位点。统计学上较高D’值仅仅暗示了重组发生率较低。而普通程度的D’,以及比较不同研究之间的LD程度。因此,使用D’作为LD程度的度量,需要做谨慎的评估和判断。
如果用P值来描述LD,更须谨慎。因为P值严格依赖于样品量大小,故也不宜用于不同研究之间的比较。受益匪浅,谢谢。收起