其他分享
首页 > 其他分享> > Meta-4mCpred:一种基于序列的meta预测器,使用有效的特征表示进行精确的DNA 4mC位点预测

Meta-4mCpred:一种基于序列的meta预测器,使用有效的特征表示进行精确的DNA 4mC位点预测

作者:互联网

Meta-4mCpred:一种基于序列的meta预测器,使用有效的特征表示进行精确的DNA 4mC位点预测

DNA n4 -甲基胞嘧啶(DNA N4-methylcytosine, 4mC)是一种重要的基因修饰,在区分自我和非自我DNA、控制DNA复制、细胞周期和基因表达水平等方面起着至关重要的作用。
我们采用了一种特征表示学习方案,基于4种不同的机器学习算法和7种特征编码生成了56个概率特征,涵盖了不同的序列信息,包括成分、物理化学和特定位置信息。随后,将概率特征作为支持向量机的输入,开发出最终的元预测器。
据我们所知,这是4mC位点预测的第一个元预测器。交叉验证结果表明,Meta-4mCpred对6个不同物种的总体平均准确率为84.2%,比使用最先进的预测因子的准确率高2% ~ 4%。此外,Meta-4mCpred在独立数据集评估中获得了86%的总体平均精度,比最先进的预测器的结果高出4%以上。

作者模型思路构建:

在这里插入图片描述
1:数据集由六种数据集构成
2:针对6种数据集,通过7种特征编码方式进行编码,7种编码方式进行组合性构建,得到每个数据集都有14种特征表述。
3:每种特征都通过四种机器学习模型训练,得到14×4=56个模型。其中56个机器模型都有做十倍交叉验证。
4:将56个机器学习模型进行概率输出,取预测为正样本的概率。因此每个样本可以得到56维度的概率特征向量。
5:这56维度的特征向量为我们最终所要的特征,将其再送入SVM模型,做最终位点识别判断。

数据集

下载地址:数据集下载链接
基准数据集:
在这里插入图片描述
独立测试集数据:
以上六个物种,每个物种阳性样本数分别为:750、1000、1250、134、350、200。此外阴性样本数与之数量对应,一一相等。

特征编码

文章采用7种特征编码方式,分别为:K-mer、BPF、DPE、LPDF、RFHC、DPCP、TPCP。

k-mer
作者k值取了k=1~5,得到了4维、16维、256维、1024维。依次称为:MNC、DNC、TNC、TeNC、PNC。

BPF
也就是平时学的 One-hot编码。

DPE
核苷酸两两一组,正好有16种组合,正好用四位二进制数表示完。从0000-1111。

LPDF:
公式
即双核苷酸,局部位置密度。Ni为第i个位置的长度,C(Xi-1 Xi-2)为起点到第i个位子,这个二核苷酸出现的次数。

RFHC:
根据四种核苷酸的环、官能团和氢键具有的不同化学性质。四种核苷酸可分别编码为:
A[1,1,1]
C[0,0,1]
G[1,0,0]
T[0,1,0]
除此之外,外加一个位置信息:
在这里插入图片描述
计算第 i 个位置的核苷酸的密度信息。

DPCP:
本研究中,使用了15种理化性质。每一个二核苷酸对应一个15维度的理化性质向量。其特征构成为:
在这里插入图片描述
左边部分为该类二核苷酸在序列中出现的频率,后者为所对应的15维度理化性质。
最终构成240维向量(16×15)

TPCP
该特征与上述的TPCP类似,此者采用了11种理化性质,每一个三核苷酸对应一个11维度的理化性质向量。其特征构成为:
在这里插入图片描述
最终构成704维度向量(64×11)

14种特征组成:
在这里插入图片描述

机器学习算法

本文章采用了SVM、RF、ERT、GB四种算法作为基模型,用于特征提取,当然在最后一部分选用的也是SVM这个模型作为最终的预测模型。

评估指标

在这里插入图片描述

结果

在这里插入图片描述

在这里插入图片描述

所提供的信息链接

supplemental information

标签:DNA,核苷酸,Meta,特征,模型,56,4mC,维度
来源: https://blog.csdn.net/zpj1997/article/details/115622517