3D信息的分子图自监督表示学习 PRE-TRAINING MOLECULAR GRAPH REPRESENTATION WITH 3D GEOMETRY
作者:互联网
原文地址:https://wyliu.com/papers/GraphMVP.pdf
摘要
- 分子图表示学习是现代药物和材料发现中的一个基本问题。
- 分子图通常由其二维拓扑结构来建模,但最近发现三维几何信息在预测分子功能方面起着更为重要的作用。
- 然而,现实场景中3D信息的缺乏严重阻碍了几何图形表示的学习。
- 为了应对这一挑战,我们提出了GraphMVP(Graph Multi-View Pre-Training)框架,该框架利用2D拓扑结构和3D几何视图之间的对应和一致性来执行自监督学习(SSL)。
- GraphMVP有效地学习了2D分子图形编码器,该编码器通过更丰富和更具区分性的3D几何来增强。
- 我们进一步提供了理论见解来证明GraphMVP的有效性。综合实验表明,GraphMVP在性能上始终优于现有的图SSL方法。
1 INTRODUCTION
- 如何用向量化嵌入来区分地表示分子仍然是药物发现中基本但开放的挑战。基本问题可以分解为两个部分
- 如何设计分子图的共同潜在空间(即,设计合适的编码器)
- 以及如何构造目标函数以监督训练(即,定义学习目标)。论文大致分为第二类,通过利用3D几何和2D拓扑之间的一致性来研究自监督分子表示学习。
- 受预先训练-微调流程的显著成功的启发,无监督预先训练的分子图形神经网络在下游任务中产生了良好的性能,并变得越来越受欢迎。
- 预训练的关键在于找到一个有效的代理任务(即训练目标)来利用大型未标记数据集的能力。
- 由于三维几何编码的能量知识可以更好地预测分子的性质,我们的目标是在预训练中利用分子的三维几何。然而,立体化学结构的获取通常非常昂贵,使得此类三维几何信息在下游任务中稀缺。为了解决这个问题,我们提出了GraphMulti-View预训练(GraphMVP)框架,其中2D分子编码器使用3D几何知识进行预训练,然后在没有3D信息的情况下对下游任务进行微调。在预培训期间,我们的学习范式将3D分子几何知识注入2D分子图编码器,这样即使没有3D信息可用,下游任务也可以受益于隐式3D几何。
- 我们通过利用3D和2D分子图上的两个代理任务(pretext tasks)实现上述目标:一个对比SSL任务和一个生成SSL任务。
- 对比SSL任务在分子间水平上产生监督信号:如果3D和2D图形对来自同一分子,则为正,否则为负。然后对比SSL 会同时正的两个图形对 对齐,负的进行对比
- 另一方面,生成SSL以分子内的方式获得受监督信号:它学习一个2D/3D表示,可以为每个分子本身重建其3D/2D对应视图。
- 为了解决分子三维和二维空间重构质量的度量问题,我们进一步提出了一种新的替代目标函数——变异表示重构(VRR),它可以有效地计算连续表示空间中的分子三维和二维空间重构质量。这两个SSL任务所获得的知识是互补的,因此我们的GraphMVP框架将它们整合在一起,形成更具甄别性的2D分子图表示。从经验上看,一致的性能改进验证了GraphMVP的有效性
- 我们给出了额外的见解来证明GraphMVP的有效性。首先,GraphMVP是一种基于最大化3D和2D视图之间的互信息(MI)的自监督学习方法,使学习后的表示能够捕获分子数据中的高阶因子。其次,我们发现三维分子几何结构是一种privileged information(隐藏信息)的形式。事实证明,在训练中使用privileged information可以加快学习速度。我们知道,privileged information只用于训练,而不能用于测试。使用3D几何预训练分子表征完全符合我们的直觉。
- 贡献:
- 第一个将3D几何信息整合到图形SSL中
- 提出了一个对比和一个生成的SSL任务用于预训练。阐述了它们之间的差异,并通过实证验证了两者的结合可以带来更好的代表性
- 提供了理论见解和案例研究,证明为什么添加三维几何信息是有益的
- 在所有SSL基线中实现了SOTA性能
- 相关工作
- 自监督学习(SSL)方法已经引起了图形应用的广泛关注。一般来说,图SSL大致有两类:对比型和生成型,它们在监督信号(supervised signals)的设计上有所不同
- 对比图SSL在在图间构造监督信号,并通过与其他图的对比来学习表示
- 生成图SSL侧重于在图内重构原始图
- 将我们的工作与现有方法区分开来的一个最重要的区别是,以前的所有方法都将重点放在二维分子拓扑上。然而,对于分子性质预测等科学任务,应结合3D几何,因为它提供了补充和全面的信息。为了填补这一空白,GraphMVP在图形自我监督预训练中利用3D几何。
- 自监督学习(SSL)方法已经引起了图形应用的广泛关注。一般来说,图SSL大致有两类:对比型和生成型,它们在监督信号(supervised signals)的设计上有所不同
2 PRELIMINARIES
- 自监督学习(SSL)基于视图(view)设计,每个视图提供数据的特定方面和形式。每个分子都有两个自然视图
- 2D图包含由邻接定义的拓扑结构,而3D图可以更好地反映几何和空间关系
- 从化学角度来看,3D几何图形专注于能量,而2D图形强调拓扑信息
- 因此,他们可以组成学习更多的信息表示在GraphMVP。转换(Transformation)是SSL中的一种原子操作,可以从每个视图中提取特定信息
- 2D分子图:以原子为节点,以键为边。