Meta-4mCpred:一种基于序列的meta预测器,使用有效的特征表示进行精确的DNA 4mC位点预测
作者:互联网
Meta-4mCpred:一种基于序列的meta预测器,使用有效的特征表示进行精确的DNA 4mC位点预测
DNA n4 -甲基胞嘧啶(DNA N4-methylcytosine, 4mC)是一种重要的基因修饰,在区分自我和非自我DNA、控制DNA复制、细胞周期和基因表达水平等方面起着至关重要的作用。
我们采用了一种特征表示学习方案,基于4种不同的机器学习算法和7种特征编码生成了56个概率特征,涵盖了不同的序列信息,包括成分、物理化学和特定位置信息。随后,将概率特征作为支持向量机的输入,开发出最终的元预测器。
据我们所知,这是4mC位点预测的第一个元预测器。交叉验证结果表明,Meta-4mCpred对6个不同物种的总体平均准确率为84.2%,比使用最先进的预测因子的准确率高2% ~ 4%。此外,Meta-4mCpred在独立数据集评估中获得了86%的总体平均精度,比最先进的预测器的结果高出4%以上。
作者模型思路构建:
1:数据集由六种数据集构成
2:针对6种数据集,通过7种特征编码方式进行编码,7种编码方式进行组合性构建,得到每个数据集都有14种特征表述。
3:每种特征都通过四种机器学习模型训练,得到14×4=56个模型。其中56个机器模型都有做十倍交叉验证。
4:将56个机器学习模型进行概率输出,取预测为正样本的概率。因此每个样本可以得到56维度的概率特征向量。
5:这56维度的特征向量为我们最终所要的特征,将其再送入SVM模型,做最终位点识别判断。
数据集
下载地址:数据集下载链接
基准数据集:
独立测试集数据:
以上六个物种,每个物种阳性样本数分别为:750、1000、1250、134、350、200。此外阴性样本数与之数量对应,一一相等。
特征编码
文章采用7种特征编码方式,分别为:K-mer、BPF、DPE、LPDF、RFHC、DPCP、TPCP。
k-mer:
作者k值取了k=1~5,得到了4维、16维、256维、1024维。依次称为:MNC、DNC、TNC、TeNC、PNC。
BPF:
也就是平时学的 One-hot编码。
DPE:
核苷酸两两一组,正好有16种组合,正好用四位二进制数表示完。从0000-1111。
LPDF:
即双核苷酸,局部位置密度。Ni为第i个位置的长度,C(Xi-1 Xi-2)为起点到第i个位子,这个二核苷酸出现的次数。
RFHC:
根据四种核苷酸的环、官能团和氢键具有的不同化学性质。四种核苷酸可分别编码为:
A[1,1,1]
C[0,0,1]
G[1,0,0]
T[0,1,0]
除此之外,外加一个位置信息:
计算第 i 个位置的核苷酸的密度信息。
DPCP:
本研究中,使用了15种理化性质。每一个二核苷酸对应一个15维度的理化性质向量。其特征构成为:
左边部分为该类二核苷酸在序列中出现的频率,后者为所对应的15维度理化性质。
最终构成240维向量(16×15)
TPCP:
该特征与上述的TPCP类似,此者采用了11种理化性质,每一个三核苷酸对应一个11维度的理化性质向量。其特征构成为:
最终构成704维度向量(64×11)
14种特征组成:
机器学习算法
本文章采用了SVM、RF、ERT、GB四种算法作为基模型,用于特征提取,当然在最后一部分选用的也是SVM这个模型作为最终的预测模型。
评估指标
结果
所提供的信息链接
标签:DNA,核苷酸,Meta,特征,模型,56,4mC,维度 来源: https://blog.csdn.net/zpj1997/article/details/115622517