2021-03-07
作者:互联网
通路引导的深度神经网络用于药物敏感性的可解释和预测建模
Pathway-Guided Deep Neural Network toward Interpretable and Predictive Modeling of Drug Sensitivity
文章来源:
引用
Lei Deng, Yideng Cai, Wenhao Zhang, Wenyi Yang, Bo Gao, and Hui Liu Journal of Chemical Information and Modeling 2020 60 (10), 4497-4505 DOI: 10.1021/acs.jcim.0c00331
优缺点
优点
加入了路径图,提高了模型的可解释性。可以提取路径级别而不是基因级别的特征。
不足
由于内在的补偿机制和细胞途径之间的串扰,单药治疗通常无法抑制癌细胞的致癌途径。
研究背景
目前方法局限性
机器学习方法预测率高,可解释性好。但药物敏感性是由多种因素决定的,例如药物分子与靶标之间的结合亲和力,药物作用机理以及癌细胞对药物施用的抵抗力。使用多个生物标记物时的功能庞大而复杂,这使得传统的机器学习方法很难在较小的数据集和有限的功能上很好地应用。
使用深度学习方法可以解决以上问题,但是生物学和药理学观点方面缺乏可解释性。
本文贡献
提出了一种路径引导的深度神经网络(DNN)模型来预测癌细胞中的药物敏感性。
生物学途径描述了细胞中的一组分子,它们共同控制各种生物学功能,例如细胞增殖和死亡,因此途径的异常功能可能导致疾病。要利用DNN的出色预测能力和途径的生物学知识,我们通过合并一层路径节点及其与输入基因节点的连接来重塑规范的DNN结构,与规范的DNN相比,这使DNN模型更具可解释性和预测性。
研究方法
数据集
基因 GDBC
药物敏感性和细胞系的基因表达。
GDSC 在970个癌细胞系中检测了250种抗癌药物。GDSC药物敏感性数据集总共包括198,929个药物反应数据点,从中计算出药物反应曲线下的面积(Actarea值)作为定量反应指标,可以直接测量药物对癌细胞系的敏感性。直观上,Actarea值越高,则药物对癌细胞系越敏感,也就是说,该药物杀死癌细胞的能力越高。我们使用最小-最大缩放方法将Actarea值归一化,以使Actarea值落在[0,1]范围内。
路径图KEGG
《京都基因与基因组百科全书》(KEGG)一个致力于理解生物系统的高级功能和实用性的公共数据库。 每个KEGG途径都是一组手工绘制的图谱,代表了有关分子相互作用,反应和关系网络的当前知识,涵盖了代谢,细胞过程,生物系统和人类疾病。
当前的信息库包含与7230个独特基因有关的323条常见信号通路。每个途径图谱都涉及数十个基因,每个基因可能参与一个或多个途径。
药物-蛋白质相互作用 STITCH
这是一个全面的数据库,收集了来自不同来源的化合物与蛋白质的相互作用:生化实验,外部数据库,文本挖掘和计算预测。同时,STITCH已计算出每种相互作用的置信度得分,范围从0到1000,这表明化合物和蛋白质相互作用的可信度得到四种类型的证据的支持。
因为我们认为太低的目标可能是不真实的目标,所以我们使用0.8的置信度阈值(对应于STITCH中的800分)来去除低置信度的目标蛋白。总共有250种药物和1100种目标蛋白来自STITCH数据集。
最终
741个药物的基因表达,537个基因表达
数据集流程
预处理
采用“地标基因”集进行特征选择。根据LINCS Project的结论,大约80%的信息可被977个标志性基因捕获。
药物
GDSC中250个drug ,找到靶向的1100种蛋白质 , 把这些蛋白质替换为基因标识符(KEGG途径标识符一致)得到了下图左图种的Drug targets 。 之后与那些包含在路径数据集基因相交。得到741个基因。
基因
基因表达和标志基因和路径基因相交得到537个基因。
整体工作流程
-
- 模型计算: Pytorch ,10折交叉验证。
- 激活函数为ReLU。
- 损失函数为MSE(均方误差)
- 梯度下降:预训练Adam,在每轮参数更新中应用权重衰减以防止模型过度拟合。之后使用SGD。SGD在模型基本收敛时候使用,因此 学习率为0.01, 权重衰减为 0.001。
- 超参数优化:隐藏层的数量(2),每个隐藏层的大小,,Adam学习率 (0.0001)和权重衰减(0.0001),batch( 512)和epoch(500)
该网络实际上是由三个全连接层组成,,第一层中需要乘以mask矩阵(M,路径)来做过滤, 是一种有意义的dropout.。该模型的输入是细胞系(基因表达),药物(靶点基因表达),药物敏感性。
架构组成部分
mask matrix(M)
323*1278, 表示编码基因节点和通路节点之间的关系,中1表示基因与通路节点之间存在关联,否则为0。权重更新公式.
M只是做一个过滤作用.
实验结果
衡量标准
PCC
RMSE
Ŷi 是预测的 Yi 是真实的
R2
调整后R2
超参数优化对结果的影响
与传统方法相比
经典线性回归,套索回归和随机森林,加权随机森林(WRF),概率随机森林(PRF)。
对于经典线性回归,套索回归,随机森林和GBM,我们通过网格搜索对它们的参数进行了调整,并使用微调的超参数获得了性能结果。对于其余方法,我们使用相应论文中提出的默认超参数。
STREAM使用SVD重新参数化来提高计算效率。然而,在特征选择期间排除了大量特征,因此其预测性能不令人满意。对于WRF和PRF,这两种方法在操作上都很费时。因此,就时间和预测准确性而言,我们提出的模型被认为优于所有前述方法。
Leave-One-Cell-Line-Out Validation
为了探索在发现批准药物的新适应症方面的预测能力,我们通过反复从训练集中删除一种癌细胞系进行了留一法验证,然后在训练后的模型上对其进行了测试,这被称为Leave-One-Cell-Line-Out Validation。
在CCLE数据集中评估
实例探究
一个旨在为某些癌细胞系寻找新药,另一个试图为某些药物寻找新适应症。
标签:03,07,药物,路径,基因,敏感性,2021,途径,癌细胞 来源: https://blog.csdn.net/qq_35384764/article/details/114480648