其他分享
首页 > 其他分享> > 从拉格朗日乘数法到最大熵再到基因表达分析

从拉格朗日乘数法到最大熵再到基因表达分析

作者:互联网

从拉格朗日乘数法到最大熵再到基因表达分析

  前言:本文将简要的介绍一下拉格朗日乘数法,并填一下上篇文章挖的坑(证明当为均匀分布时,熵值达到最大。) ,最后简要介绍熵在基因表达分析中的应用。
  首先是拉格朗日乘数法的简要介绍。主要以二元函数为例。(大部分参考一篇文献,文献见末尾[1]^{[1]}[1]) 拉格朗日乘数法是求解条件极值问题的一大利器。在《高等数学》同济版中是这样介绍的:“考虑如下的条件极值:求二元函数z=f(x,y),在条件ϕ(x,y)\phi ( x , y )ϕ(x,y)=0下的极值和最值。”
  假定函数z=f(x,y)在p(x0x_{0}x0​,y0y_{0}y0​)取得极值,并且ϕ(x0,y0)=0\phi(x_{0},y_{0})=0ϕ(x0​,y0​)=0,若在p的某个邻域内二元函数z=f(x,y)和方程ϕ(x,y)\phi ( x , y )ϕ(x,y)=0都存在连续的一阶偏导数,且ϕy(x0,y0)0\phi _ { y } \left( x _ { 0 } , y _ { 0 } \right) \neq 0ϕy​(x0​,y0​)​=0
则根据隐函数的存在定理,方程ϕ(x,y)\phi ( x , y )ϕ(x,y)=0确定一个连续且有连续导数的函数y=ψ(x)\psi ( x )ψ(x),将其带入二元函数中可得z=f(x,ψ(x)\psi ( x )ψ(x))
  有假设可知,函数z=f(x,y)在p点取得极值,即函数z=f(x,y)在x=x0x_{0}x0​取得极值,对此时的一元函数求导得:
dzdx=fx(x0,y0)+fy(x0,y0)dydxx=x0=0\frac { d z } { d x } = f _ { x } \left( x _ { 0 } , y _ { 0 } \right) + \left. f _ { y } \left( x _ { 0 } , y _ { 0 } \right) \frac { d y } { d x } \right| _ { x = x _ { 0 } } = 0dxdz​=fx​(x0​,y0​)+fy​(x0​,y0​)dxdy​∣∣∣​x=x0​​=0
而对函数y=ψ(x)\psi(x)ψ(x)进行隐函数求导有:
dydxx=x0=ϕx(x0,y0)ϕy(x0,y0)\left. \frac { d y } { d x } \right| _ { x = x _ { 0 } } = - \frac { \phi _ { x } \left( x _ { 0 } , y _ { 0 } \right) } { \phi _ { y } \left( x _ { 0 } , y _ { 0 } \right) }dxdy​∣∣∣​x=x0​​=−ϕy​(x0​,y0​)ϕx​(x0​,y0​)​
将隐函数的求导结果带入dzdx\frac { d z } { d x }dxdz​式子中得:
fx(x0,y0)fy(x0,y0)φx(x0,y0)ϕy(x0,y0)=0f _ { x } \left( x _ { 0 } , y _ { 0 } \right) - f _ { y } \left( x _ { 0 } , y _ { 0 } \right) \frac { \varphi _ { x } \left( x _ { 0 } , y _ { 0 } \right) } { \phi _ { y } \left( x _ { 0 } , y _ { 0 } \right) } = 0fx​(x0​,y0​)−fy​(x0​,y0​)ϕy​(x0​,y0​)φx​(x0​,y0​)​=0
且令λ\lambdaλ=fy(x0,y0)ϕy(x0,y0)- \frac { f _ { y } \left( x _ { 0 } , y _ { 0 } \right) } { \phi _ { y } \left( x _ { 0 } , y _ { 0 } \right) }−ϕy​(x0​,y0​)fy​(x0​,y0​)​
  则p点是等式条件约束下的多元函数极值的必要条件是:
{fx(x,y)λϕx(x0,y0)=0fy(x0,y0)λϕy(x0,y0)=0ϕ(x,y0)=0\left\{ \begin{array} { l } { f _ { x } ( x , y ) - \lambda \phi _ { x } \left( x _ { 0 } , y _ { 0 } \right) = 0 } \\ { f _ { y } \left( x _ { 0 } , y _ { 0 } \right) - \lambda \phi _ { y } \left( x _ { 0 } , y _ { 0 } \right) = 0 } \\ { \phi _ { \left( x , y _ { 0 } \right) = 0 } } \end{array} \right.⎩⎨⎧​fx​(x,y)−λϕx​(x0​,y0​)=0fy​(x0​,y0​)−λϕy​(x0​,y0​)=0ϕ(x,y0​)=0​​
&若我们引入辅助函数L(x,y)=f(x,y)-λϕ(x,y)\lambda\phi(x,y)λϕ(x,y)则对函数L对x,y,λ\lambdaλ,求偏导数后不难看出就是必要条件的三个等式。这个函数L就是拉格朗日函数,λ\lambdaλ就是拉格朗日乘子。若是对拉格朗日函数及乘子的构造有疑问,可以参考文末的文献,其给出了几何角度的解释。
下面我们运用拉格朗日乘数法证明当是均匀分布时,取得最大熵值。
熵:H(X)=inP(xi)logP(xi)H (X) = - \sum _ { i } ^nP \left( x _ { i } \right) \log P \left( x _ { i } \right)H(X)=−∑in​P(xi​)logP(xi​) ,且inP(xi)\sum_{i}^nP(x_{i})∑in​P(xi​)=1 (log的底数默认为2)
构造拉格朗日函数L(x)=inP(xi)logP(xi)- \sum _ { i }^n P \left( x _ { i } \right) \log P \left( x _ { i } \right)−∑in​P(xi​)logP(xi​)+λ\lambdaλ(i\sum_{i}∑i​P(xix_{i}xi​)-1)
然后对所有的P(xi)P(x_{i})P(xi​)求偏导:
P(xi)\frac { \partial } { \partial P (x _ { i }) }∂P(xi​)∂​( inP(xi)logP(xi)- \sum _ { i }^n P \left( x _ { i } \right) \log P \left( x _ { i } \right)−∑in​P(xi​)logP(xi​)+λ\lambdaλ(i\sum_{i}∑i​P(xix_{i}xi​)-1))
得到n个等式的微分,且取最值时,一阶导数为 0: (log2p(xi)+1ln2)+λ=0- \left( \log _ { 2 } p( x _ { i })+ \frac { 1 } { \ln 2 } \right) + \lambda = 0−(log2​p(xi​)+ln21​)+λ=0
进而得到:
P(xi)=2λ1ln2P \left( x _ { i } \right) = 2 ^ { \lambda - \frac { 1 } { \ln 2 } }P(xi​)=2λ−ln21​
所以我们易知P(x1)P(x_{1})P(x1​)=P(x2)P(x_{}2)P(x​2)=P(x3)P(x_{3})P(x3​)=…=P(xn)P(x_{n})P(xn​)=2λ1ln22^{\lambda-{\frac{1}{ln2} }}2λ−ln21​

inP(xi)\sum_{i}^nP(x_{i})∑in​P(xi​)=1 :
P(x1)P(x_{1})P(x1​)=P(x2)P(x_{}2)P(x​2)=P(x3)P(x_{3})P(x3​)=…=P(xn)P(x_{n})P(xn​)=1n\frac{1}{n}n1​
故此时为均匀分布。
且将结果带入H(X)中得到最大的熵值为:log2nlog_{2}nlog2​n
  在Schug等人的文章《Promoter features related to tissue specificity as measured by Shannon entropy》提到了用信息熵来衡量某些基因在组织中相对表达水平。

Given expression levels of a gene in N tissues, we defined the
relative expression of a gene g in a tissue t as ptgp_{t|g}pt∣g​ =
wg,tw_{g,t}wg,t​ /1tN\sum_{1 ≤ t ≤ N}∑1≤t≤N​wg,tw_{g,t}wg,t​ where wg,tw_{g,t}wg,t​ is the expression level of the gene in the tissue. The entropy of a gene’s expression distribution is HgH_gHg​
=1tNptglog2(ptg)\sum_{1 ≤ t ≤ N} - p_{t|g} log_2(p_{t|g})∑1≤t≤N​−pt∣g​log2​(pt∣g​). HgH_gHg​ has units s and ranges from
zero for genes expressed in a single tissue to log2(N)log_2(N)log2​(N) for genes
expressed uniformly in all tissues considered. The maximum
value of HgH_gHg​ depends on the number of tissues considered so
we will report this number when appropriate.[2]^{[2]}[2]

如上文所说:如果某基因在这N个组织中的表达水平趋近于相同(即该基因倾向于广泛表达),则熵值趋近于最大值log2Nlog_{2}Nlog2​N,若某基因倾向于只在某一组织中表达,则熵值趋近于0

参考文献:[1] 吴元泽. 关于拉格朗日乘数法的一点思考[J]. 教育教学论坛, 2018, No.350(08):232-233.
[2] Schug J, Schuller W P, Kappen C, et al. Promoter features related to tissue specificity as measured by Shannon entropy[J]. Genome biology, 2005, 6(4): R33.

奋发秃强 发布了56 篇原创文章 · 获赞 13 · 访问量 9355 私信 关注

标签:拉格朗,phi,xi,法到,right,y0,乘数,x0,left
来源: https://blog.csdn.net/weixin_43770577/article/details/104133504