A Multi-level Mesh Mutual Attention Model for Visual Question Answering
欢迎扫码阅读全文
文章介绍
考虑到建立模态之间的相互关注,挖掘模态之间的隐藏关系,在融合阶段在多尺度上探索不同模态之间的抽象信息,是视觉问答中亟待解决的问题。针对上述问题,本文设计了一种新的多层次网格相互注意模型。该方法可以很好地用于探索特征之间的关系。与以往的工作不同,本文实现了一种更简洁有效的模式间信息交互方式,充分利用多层次的问题特征提炼模式间的抽象联系。考虑到对于同一幅图像,不同的问题关注不同的对象。对于同一个问题,不同的图像所涉及的区域对象也是不同的。在特征融合阶段,不能简单地通过拼接或添加两个特征来表达相互作用。因此,本文还设计了一个多尺度自适应融合模块。该模块通过多次不同维度的小批量变换来解决上述问题,并自适应地聚合各尺度的融合信息。在VQA v1和VQA v2数据集上的大量实验表明,该模型在比较算法上达到了最先进的结果。该论文在已有工作基础上的主要贡献如下:
建立了一个具有编解码器结构的多层次网格相互注意模型。多层次网格解码器对多层次问题特征和图像特征进行相互注意操作,自适应地聚合来自各个层次的信息。探索并验证了同时使用低维和高维多层次问题特征都有利于视觉问题回答。
在融合阶段,设计了一种自适应的金字塔型多尺度融合模块。对融合特征进行多层小批量金字塔线性变换,自适应完成多尺度融合。
在VQA v1和VQA v2数据集上的大量实验表明,该模型在比较算法上达到了最先进的结果。在消融实验中,我们建立了自己的基线模型,逐步添加模块,并验证每个模块的效果。
实验效果
在下表1中可以看到,本模型在VQA v1数据集的test-dev和test-std上的总体准确率分别为69.74%和69.86%,高于所有比较算法。还可以看到,使用注意机制的MLB和DCN方法比单纯基于CNN LSTM结构的LSTM Q I和DPPnet方法性能更好,但弱于基于模态交互的方法。本模型属于基于模态交互的方法,性能比比较算法中最好的ATCG的性能分别提高了0.27%和0.22%。
表1. 同一训练集两个不同测试集上的性能比较。“-”表示该结果不可用。“Overall”表示最终的总体精度。“Yes/No”、“Numbers”和“Other”分别表示该细分下三种不同问题类型的准确性
在下表1中可以看到,本模型在VQA v1数据集的test-dev和test-std上的总体准确率分别为69.74%和69.86%,高于所有比较算法。还可以看到,使用注意机制的MLB和DCN方法比单纯基于CNN LSTM结构的LSTM Q I和DPPnet方法性能更好,但弱于基于模态交互的方法。本模型属于基于模态交互的方法,性能比比较算法中最好的ATCG的性能分别提高了0.27%和0.22%。
表2. 同一训练集上不同测试集上的性能比较。“*”表示增加VG[30]数据集。“-”表示该结果不可用。“Overall”表示最终的总体精度。“Yes/No”、“Num”和“Other”分别表示该细分下三种不同问题类型的准确性,粗体值是所有方法中最好的
结语
论文提出了一种用于视觉问答的多层次网格互注意模型。多层次网状互注意模型利用互注意充分挖掘视觉和语言模式之间的信息交互,提高模型效率。该模型巧妙地采用多层次网格连接,同时在不同层次上利用低维和高维问题信息,为模态交互提供更多的特征信息。此外,设计了自适应多尺度特征融合模块,在融合阶段对融合特征中不同尺度的抽象信息进行挖掘。并对VQA v1和VQA v2数据集进行了对比实验,结果分别验证了我们提出的模块的意义和整体模型的性能。在未来的工作中,可以考虑引入推理机制,如因果推理、图神经网络等,在模态之间建立更复杂的关系和推理,以提高回答问题的准确性。
关于Data Science and Engineering
Data Science and Engineering(DSE)是由中国计算机学会(CCF)主办、数据库专业委员会承办、施普林格 自然(Springer Nature)出版的Open Access期刊。为了迎合相关领域的快速发展需求,DSE致力于出版所有和数据科学与工程领域相关的关键科学问题与前沿研究热点,以大数据作为研究重点,征稿范畴主要包括4方面:(1)数据本身,(2)数据信息提取方法,(3)数据计算理论,和(4)用来分析与管理数据的技术和系统。
目前期刊已被EI、ESCI与SCOPUS收录,CiteScore 2021为6.4,在Computer Science Applications领域排名# 157/747(位列前21%)。稿件处理费由赞助商中新赛克(Sinovatio)承担,欢迎大家免费下载阅读期刊全文,并积极投稿。
欢迎扫码进入期刊首页阅读下载
点击“阅读原文”,阅读论文全文!