服务粉丝

我们一直在努力
当前位置:首页 > 财经 >

DSE精选文章 | 视觉问答的多层次网格相互注意模型

日期: 来源:Springer收集编辑:专委会秘书处

A Multi-level Mesh Mutual Attention Model for Visual Question Answering

欢迎扫码阅读全文


文章介绍

考虑到建立模态之间的相互关注,挖掘模态之间的隐藏关系,在融合阶段在多尺度上探索不同模态之间的抽象信息,是视觉问答中亟待解决的问题。针对上述问题,本文设计了一种新的多层次网格相互注意模型。该方法可以很好地用于探索特征之间的关系。与以往的工作不同,本文实现了一种更简洁有效的模式间信息交互方式,充分利用多层次的问题特征提炼模式间的抽象联系。考虑到对于同一幅图像,不同的问题关注不同的对象。对于同一个问题,不同的图像所涉及的区域对象也是不同的。在特征融合阶段,不能简单地通过拼接或添加两个特征来表达相互作用。因此,本文还设计了一个多尺度自适应融合模块。该模块通过多次不同维度的小批量变换来解决上述问题,并自适应地聚合各尺度的融合信息。在VQA v1和VQA v2数据集上的大量实验表明,该模型在比较算法上达到了最先进的结果。该论文在已有工作基础上的主要贡献如下:


  1. 建立了一个具有编解码器结构的多层次网格相互注意模型。多层次网格解码器对多层次问题特征和图像特征进行相互注意操作,自适应地聚合来自各个层次的信息。探索并验证了同时使用低维和高维多层次问题特征都有利于视觉问题回答。

  2. 在融合阶段,设计了一种自适应的金字塔型多尺度融合模块。对融合特征进行多层小批量金字塔线性变换,自适应完成多尺度融合。

  3. 在VQA v1和VQA v2数据集上的大量实验表明,该模型在比较算法上达到了最先进的结果。在消融实验中,我们建立了自己的基线模型,逐步添加模块,并验证每个模块的效果。


实验效果

在下表1中可以看到,本模型在VQA v1数据集的test-dev和test-std上的总体准确率分别为69.74%和69.86%,高于所有比较算法。还可以看到,使用注意机制的MLB和DCN方法比单纯基于CNN LSTM结构的LSTM Q I和DPPnet方法性能更好,但弱于基于模态交互的方法。本模型属于基于模态交互的方法,性能比比较算法中最好的ATCG的性能分别提高了0.27%和0.22%。

表1. 同一训练集两个不同测试集上的性能比较。“-”表示该结果不可用。“Overall”表示最终的总体精度。“Yes/No”、“Numbers”和“Other”分别表示该细分下三种不同问题类型的准确性


在下表1中可以看到,本模型在VQA v1数据集的test-dev和test-std上的总体准确率分别为69.74%和69.86%,高于所有比较算法。还可以看到,使用注意机制的MLB和DCN方法比单纯基于CNN LSTM结构的LSTM Q I和DPPnet方法性能更好,但弱于基于模态交互的方法。本模型属于基于模态交互的方法,性能比比较算法中最好的ATCG的性能分别提高了0.27%和0.22%。

表2. 同一训练集上不同测试集上的性能比较。“*”表示增加VG[30]数据集。“-”表示该结果不可用。“Overall”表示最终的总体精度。“Yes/No”、“Num”和“Other”分别表示该细分下三种不同问题类型的准确性,粗体值是所有方法中最好的


结语

论文提出了一种用于视觉问答的多层次网格互注意模型。多层次网状互注意模型利用互注意充分挖掘视觉和语言模式之间的信息交互,提高模型效率。该模型巧妙地采用多层次网格连接,同时在不同层次上利用低维和高维问题信息,为模态交互提供更多的特征信息。此外,设计了自适应多尺度特征融合模块,在融合阶段对融合特征中不同尺度的抽象信息进行挖掘。并对VQA v1和VQA v2数据集进行了对比实验,结果分别验证了我们提出的模块的意义和整体模型的性能。在未来的工作中,可以考虑引入推理机制,如因果推理、图神经网络等,在模态之间建立更复杂的关系和推理,以提高回答问题的准确性。




关于Data Science and Engineering

Data Science and Engineering(DSE)是由中国计算机学会(CCF)主办、数据库专业委员会承办、施普林格 自然(Springer Nature)出版的Open Access期刊。为了迎合相关领域的快速发展需求,DSE致力于出版所有和数据科学与工程领域相关的关键科学问题与前沿研究热点,以大数据作为研究重点,征稿范畴主要包括4方面:(1)数据本身,(2)数据信息提取方法,(3)数据计算理论,和(4)用来分析与管理数据的技术和系统。


目前期刊已被EI、ESCI与SCOPUS收录,CiteScore 2021为6.4,在Computer Science Applications领域排名# 157/747(位列前21%)。稿件处理费由赞助商中新赛克(Sinovatio)承担,欢迎大家免费下载阅读期刊全文,并积极投稿。

欢迎扫码进入期刊首页阅读下载



点击“阅读原文”,阅读论文全文!


相关阅读

  • 蔡甸区:用好群众评议 提升作风效能

  • “针对该不满意件所反映出的问题,我们进一步完善工作机制、强化教育提醒,调整实习人员带教学习时间安排,同时加强对窗口工作人员沟通能力、服务意识的培训提升,杜绝此类情况再次
  • 中国人民有权就台湾问题三问美方

  • 秦刚:美方应该停止“以台制华”,回归一个中国原则的本源本义外交部长秦刚7日在两会记者会上回应中美因台湾问题走向冲突的现实风险有多大的问题时说,我首先引用《中华人民共和
  • 匠心复刻:用建筑语言讲好雷锋故事

  • (通讯员 李金含 何思)“小朋友,你是不是想试试?我来教你,这个雷锋故居模型应该这样拼。”3月5日,长沙理工大学金盆岭校区建筑学院风景园林实践教学基地,同学们制作的红色建筑模型吸
  • 回应台湾问题时,秦刚现场拿出了宪法

  • 3月7日,外交部长秦刚举行两会记者会。有记者问及中美因台湾问题走向冲突的现实风险有多大。秦刚表示,我首先引用《中华人民共和国宪法》序言里的两句话:“台湾是中华人民共和国
  • All in AI,你退休前的最后一站

  • 作者:曲凯来源:42章经(ID:myfortytwo)我在42章经之前两篇文章对生成式 AI 的意义做了定性,本文试图回答一些大家关心的问题,并讲讲 AI 在我们眼中的巨大实际落地场景和机会。首先,当

热门文章

  • “复活”半年后 京东拍拍二手杀入公益事业

  • 京东拍拍二手“复活”半年后,杀入公益事业,试图让企业捐的赠品、家庭闲置品变成实实在在的“爱心”。 把“闲置品”变爱心 6月12日,“益心一益·守护梦想每一步”2018年四

最新文章

  • 碳排放交易体系中的金融创新 | FIN专刊导读

  • Financial Innovation《金融创新》(FIN)第37期,第9卷第1期(2023)就“Financial innovation for Emission Trading Scheme” 这一主题展开。来自澳大利亚、加拿大、中国、英国等国