其他分享
首页 > 其他分享> > 建立表观遗传修饰和转录因子结合位点的关系模型

建立表观遗传修饰和转录因子结合位点的关系模型

作者:互联网

               





摘要

在基因表达调控中,TFs和表观遗传修饰起到关键作用,已经发现了两者间的相关性。然而,定量研究相关性的方法有限。本文提出了一种计算机方法,系统研究染色质体系结构或DNA序列中的表观遗传改变如何与TF结合相关,采用统计学分析去阐明表观遗传修饰可以预测TF结合亲和力,而不需要序列信息。结果显示,预测TF结合亲和力的表观遗传修饰模型是细胞系特异性的,表观遗传修饰和TF结合亲和力间的关系是高协调的,基因组位置特异的,细胞类型特异的。


1 数据集


1、ENCODE 数据库,细胞系中大于120 个TFs和不同表观遗传修饰类型的数据

2、ChIP-Seq方法生成组蛋白修饰的全基因组描述(包括H3K9ac, H3K27ac,  H3K4me3, H3K4me2,H3K4me1, H3k79me2, H3K9me3, H3K27me3, H3K36me3 和H4K20me1,和组带白变体,H2az)。

3、筛选K562(红细胞白血病细胞),GM12878(B-淋巴母细胞),H1-hESC(胚胎干细胞),HepG2(肝癌细胞)这四种细胞系的数据集。

4、使用ChIP-Seq方法描述全基因组TF结合数据,从K562, GM12878, H1-hESC 和 HepG2细胞系中获得75, 69, 42 和41 个TFs的数据。 

5、使用RRBS方法(覆盖大于1M(百万)个CpG位点,Ininium Human Methylation450 BeadChip array测量485577个CpG位点的甲基化水平。每个CpG的甲基化水平是RRBS重复实验数据的平均值或Human Methylation450 BeadChip 数据的平均值。

6、从RefSeq数据库(中获得有全部信息的47321个蛋白编码基因和10214个非蛋白编码基因的基因组位置,包括TSSs和TTSs。排除序列长度(TSSs到TTSs)小于4k bps的基因,确保每个基因有足够的下游区域,最终筛选得到33292个基因。

7、FANTOM5数据库提供49199个增强子的信息。


1 方法


一:分离TSSs和增强子中心点周围的基因组区域

1、将TSSs周围的8K-bp基因组区域(-4到+4 Kb)划分为80个滑窗,每个滑窗大小为100bps。增强子中心点类似。

2、基于TF或组蛋白的ChIP-Seq数据,我们计算每个核苷酸的覆盖范围,作为覆盖该核苷酸的Reads的数目。平均核苷酸的覆盖范围。计算每百万Reads(RPM)的值,进一步标准化每个滑窗的覆盖范围,取重复实验的平均值。

3、log2转化(log 2(RPM + 1)).如果没有ChIP-Seq reads映射到每个滑窗,分配一个伪计数-1作为结合亲和力,取代0去与其他非0但低覆盖范围的滑窗区分开来。

 4、筛选映射到每个滑窗的CpG位点的甲基化水平,计算滑窗的甲基化水平。对于有多个CpG位点的滑窗,取映射到这个滑窗的CpG位点的甲基化水平的平均值来作为这个滑窗的甲基化水平。


图片

二:预测TF结合亲和力

1、 RefSeq 基因,随机选择三分之二的基因(22194)作为训练数据集,剩下的三分之一的基因作为测试数据集。

2、在每个滑窗中,构建训练数据集中每个TF的MLR模型(多元线性回归模型(‘mlr’R包))和RF模型(随机森林模型(‘randomForest’R包)),表观遗传修饰水平作为输入,TF结合亲和力是输出,且随后应用到测试数据集中,相应的表观遗传修饰水平作为输入去预测同一TF的结合亲和力

3、计算预测的TF结合亲和力和实验测量值间皮尔森相关系数(PCC)。测定系数(R^2)作为且表示预测精确度,代表该模型中可以解释其TF结合亲和力的基因所占的比例。

4、使用交叉验证去估算预测精确度,上述步骤重复50次

5 、计算预测的和实验测量的TF结合亲和力的PCC和R^2的平均值,去作为每个滑窗中的表观遗传修饰模型的预测精确度。

图片


1 结果


1、TF结合亲和力和表观遗传修饰的相关性不具有偶然性,表观遗传修饰和TF结合亲和力的强相关性。


图片

2、表观遗传修饰和TF结合间的位置特异性关系。

图片


3、预测TF结合的表观遗传修饰模型是细胞系特异性的。

图片

4、表观遗传修饰可以全基因组地预测TF结合亲和力。


图片

1 讨论


本文提出的模型可以用一种定量方法对TF结合和表观遗传修饰间的相关性进行系统性分析。通过将基因组区域划分为滑窗,模型可以研究TF结合和表观遗传修饰间的全基因组相关性,且能定量发现他们的位置关联的关系。分析了在TF结合峰和非峰基因组区域上都有的TF结合和表观遗传修饰间的相关性。本文方法有利于研究组蛋白修饰和DNA甲基化状态,和他们与TF结合的相关性。可以研究DNA甲基化与TF结合的正相关性。不依赖于序列信息,表观遗传修饰可以预测TF结合亲和力。分析表明,表观遗传修饰和TF 结合亲和力间有强相关性。这些相关性不是偶然发生的,是由自然生物机制引发的。预测模型对有相似预测精确度的所有基因普遍有效,尽管基因的表达水平不同。表观遗传修饰可能根据基因组位置和细胞系或细胞状态改变,这表明了位置特异性和细胞系特异性关联。分析说明,表观遗传特征通过一个组合非线性方法去反映TF结合亲和力,这意味着在每个基因组区域上的对TF结合的准确模拟只需要几个组蛋白修饰。DNA甲基化在建立TF结合模型方面不起主要作用。


参考文献:


Liu, L., G. Jin, and X. Zhou, Modeling the relationship of epigeneticmodifications to transcription factor binding. Nucleic Acids Res, 2015. 43(8): p. 3873-85.


往期「精彩内容」,点击回顾

DNA测序历史 | CircRNA数据库 | Epigenie表观综合 | 癌症定位

BWA介绍  |  源码安装R包 | CancerLocator  | lme4 | 450K分析

乳腺癌异质性 BS-Seq  | 隐马模型 | Circos安装 |  Circos画图

KEGG标记基因 |  GDSC  |  Meta分析  |   R线性回归和相关矩阵

精彩会议及课程,点击回顾

计算表观遗传学大数据前沿学术论坛会议记实

哈尔滨医科大学2017年全国生物信息学暑期学校

2017龙星课程系列(一)

2017龙星课程系列(二)
2017龙星课程系列(三)

2017龙星课程系列(四)

2017龙星课程系列(五)


标签:遗传,结合,TF,转录,亲和力,表观,位点,修饰
来源: https://blog.51cto.com/15127592/2672905