其他分享
首页 > 其他分享> > 2021:多任务预训练的跨模态自注意力的医学视觉问答Cross-Modal Self-Attention with Multi-Task Pre-Training for Medical VQA

2021:多任务预训练的跨模态自注意力的医学视觉问答Cross-Modal Self-Attention with Multi-Task Pre-Training for Medical VQA

作者:互联网

摘要

        由于缺乏标签的数据,现有的医学视觉问答往往依赖于转移学习获取图像特征表示,使用视觉和语言特征跨模态融合实现与问题相关的答案预测。这两个阶段单独执行,没有考虑预训练特征的跨模态融合的相容性和适用性。因此我们将图像特征预训练重新定义为一个多任务学习范式,迫使它考虑到特定图像理解任务中特征的适用性。此外,我们引入了一种跨模态自注意力模块(CMSA)有选择的捕捉长期的上下文相关性,以更有效的融合视觉和语言特征。实验结果表明该方法由于现有的先进方法。

代码

一、介绍

       医学VQA的常见设置是从最适合问题和图像的答案集中检索答案。由于期望VQA系统不仅能为临床医生提供决策支持,还能帮助患者基于医学图像更好理解病情,因此几个医学VQA数据集被提出。相比于自然图像的VQA,医学VQA有几项独特的挑战:医学术语的语义解析、由于低对比度而更复杂的跨模态语义对齐和融合、以及医学图像的多模态特征(如CT、MRI、X射线)。

        基于以上问题,我们建议将图像特征预训练重新表述为一个多任务学习范式,迫使其考虑特定图像理解任务和跨模态融合模块中特征的适用性。使用外部数据已经被证明能够更好战胜医学VQA数据稀缺的问题,其次一个跨模态自注意力模块(CMSA)通过学习和利用它们的长期上下文相关性,有效地融合跨模态特征,通过上下文信息的增强和互补,有效地补偿了医学图像中的低对比度和弱局部特征表示。最后,我们在VQA-RAD数据集上实现了最先进的性能。

二、相关工作

2.1 视觉问答

        Anderson et al提出一种bottom-up机制通过Faster R-CNN提取目标表示,在VQA和图像标注实现了很大的成功。跨模态特征融合的方法主要分为两类,基于注意力的方法和多模态联合嵌入。         对于医学VQA,目前常用方法是使用CNN进行图像特征表示,利用LSTM或Transformer的方法提取问题特征。将一般的跨模态融合策略(如SAN、BAN、MFB)应用于特征融合,然后进行答案预测。医学VQA需要理解医学术语且关注图像中相应的视觉内容,但现有的医学VQA方法借鉴一般的VQA技术,造成预测精度的瓶颈。

2.2 转移学习

       医学VQA数据的局限使得许多工作依靠转移学习获得图像特征表示。[5, 14, 22, 25]中使用在ImageNet上预训练的CNN来编码医学图像,如VGGNet和ResNet。Allaouzi et al.[3]利用胸部射线片的大型数据集CheXpert[11]来预训练一个DenseNet-121作为视觉特征编码器。Nguyen et al.[17]利用大规模的未标记的医学图像通过重建任务对其无监督去噪自动编码器进行预训练。然而,目前还没有任何工作试图考虑预先训练好的跨模态融合特征的兼容性和适用性,这是VQA模型的重点。

三、方法

       所提出的医学VQA框架包括一个多任务预训练范式,用于更有效的医学图像表示学习,一种跨模态自注意力模块用于特征融合,以及最终的VQA分类器。

3.1 多任务预训练

       在多任务预训练期间,我们的模型由两个独立的模块共同训练,包括一个常规的图像理解任务和一个专门设计的问题-图像兼容性测试的任务。后者被定义为一个二分类任务,需要模型确定问题是否与给定的图像相关和适合。对于外部数据集的给定图像,我们随机从VQA-RAD中选择一个问题形成一个问题图像对。问题-图像兼容性测试的标签是通过查询是否存在一对所选的问题和与VQA-RAD中给定的图像种类相同的图像。

       图2所示,使用外部数据集进行预训练时,我们使用ResNet-34作为主干捕获视觉特征,用于分割的对称结构的一个解码器和用于图像分类的一个三层MLP。问题-图像兼容性测试,我们使用提出的用于特征融合的跨模态自注意力模块(CMSA)。这里的CMSA模块只包含一个自注意力模块,因为我们让这个预训练任务关注于图像解码器的表征学习,而不是特征融合。多任务损失函数为:

分别表示特定图像理解任务和问题-图像兼容性任务的交叉熵损失。

3.2 我们的医学VQA模型

        我们使用一个多任务损失L端到端的训练该医学VQA模型:

Lvqa和Ltype是基于答案预测和图像种类的分类的交叉熵损失。

3.2.1 图像编码

       我们使用三个独立的ResNet-34网络在相应的外部数据集上预训练,以分别捕获MRI、CT、X-射线的视觉特征。然后使用一个分类器确定医学图像的种类,并以soft方式选择相应的视觉特征:

v表示最终视觉特征,va,vh,vc分别表示从解码器的对应腹部、头部和胸部图像的输出特征。w是图像种类分类器的输出向量,表示每个医学图像种类的权重。

        此外,为了更好理解和回答有关局部图像定位的问题,我们按照[27]获得有同样分辨率的8维空间特征图t作为视觉特征w。空间特征图t中每个位置的空间向量编码归一化坐标(左上、中间、右下、网格的宽和高)。

3.2.2 问题编码

       按照前面的工作[17],每个单词都表示为来自VQA-RAD的一个200维BioWordVec词嵌入和另一个200维增强嵌入的连接。BioWordVec是一种基于PubMed和MeSH的预训练的生物医学词嵌入。每个400维嵌入向量送入LSTM获取问题嵌入q∈ R 12×1024 .。

3.2.3 跨模态自注意力

      跨模态融合前,我们有视觉特征vR7×7×512,空间特征s∈ R7×7×8和问题嵌入q∈ R 12×1024。对于问题中的每个词,我们连接在每个空间位置的视觉和空间特征的表示,以产生一个特征图f∈ R7×7×1544。然后收集所有连接的特征图以获取一个多模态特征图F∈ R 12× 7 × 7 × 1544。在捕获非局部上下文中受自注意力的启发,我们设计我们的跨模态对其和融合方法。

        首先通过三个1*1*1的卷积层将多模态特征图F转换为三个特征图Q,K,V∈ R 12×7×7×772。重新设置尺寸R 588×772,使用Q和K计算注意力图A:

        A∈ R 588×588 表示不同位置特征的连接。将注意力图A和特征图V相乘得到增强的多模态表示F’∈ R 588×772:

        接下来,将F’的维度通过重塑和卷积层转换为R12*7*7*1544.以上的操作被展示在图1命名为自注意力模块。受BAN的glimpse的启发,我们使用残差连接再次重复自注意力模块。最终的多模态表示F^∈ R 12×1544通过应用一个平均池化到所有空间位置F’和F的残差连接的输出获取:

 i,j,k是特征图中词的数量、高和宽的指标。在一个线性层,F^被转换到同一尺度作为问题嵌入q。

3.2.4 答案预测

       共同表示F^在元素上加上问题嵌入q,之后是问题中所有词的总和。最终,将其送入一个两层的MLP以进行答案预测。答案的预测分数被计算为:

四、实验

4.1 数据集和指标

       VQA-RAD数据集:包含315张放射图像,3064个训练问题和451个测试问题。我们引用三个额外数据集预训练不同图像种类的视觉编码器,包括腹部CT,大脑MRI和胸部X-射线。腹部CT数据集包含2178个13种的多器官分割的图像,使用2070个图像训练,108个图像验证。大脑MRI数据集包含三种大脑肿瘤的3604张图像,3000个图像训练和64个图像验证。胸部X-射线数据集包含5232个肺炎或正常的图像,5000个图像训练232个图像验证。

       正确率作为VQA任务和预训练分类任务的指标,acccls和acccom指图像分类任务和问题-图像兼容性任务的正确率。mIoU指分割的标准。

4.2 先进模型的比较

       我们提出的方法在开放式和封闭式VQA上都达到了最高的精度。我们的方法也优于同样使用外部数据集的BAN-MEVF。此外,提出的方法可以与条件推理[29]相结合,以得到进一步的改进。

4.3 消融研究

       为探究多任务预训练方法的有效性,我们将其与单任务预训练方法比较,该方法只在外部数据集上进行预训练,以进行原始图像分类或分割任务。baseline表示单任务预训练方法,MTPT表示具有BioWordVec词嵌入的设计方法。结果表明,提出的多任务预训练方法可略微提高每个特定图像理解任务的性能。

       在对视觉编码器进行了预训练后,我们加载了预训练的权重,以在VQA-RAD上训练整个VQA模型。“INPT”使用ImageNet上三个预训练的ResNet-34作为视觉编码器。“STPT”通过单任务预训练初始化视觉编码器,而“MTPT”从多任务预训练中加载视觉编码器的权重。CMSA使用提议的“CMSA”进行特征融合,而“BAN”应用BAN[13]进行特征融合。

        从表3中看出,“MTPT-CMSA”在相同的外部数据集上显著优于“STPT-CMSA”,这表明我们的多任务学习范式的预训练视觉特征更适合我们的CMSA模块,以获得有效的多模态表示。此外,所提出的“CMSA”特征融合通过捕获上下文相关性,超越了“BAN”特征融合方法。

五、结论

       本文引入一种基于多任务预训练范式的接触医学VQA框架,以实现更有效的医学图像表示学习。此外,提出的CMSA模块通过捕获上下文相关性,有效地融合了视觉和语言特征。实验结果证明,该方法可以更有效地利用外部数据来克服医学VQA数据的局限性。在未来,我们将专注于将领域知识集成到最近基于知识的数据集[16]的医学VQA,以实现可解释的医学应用。

标签:Pre,模态,Multi,Task,训练,特征,医学,图像,VQA
来源: https://blog.csdn.net/weixin_42653320/article/details/118380578