服务粉丝

我们一直在努力
当前位置:首页 > 财经 >

Patterns:深度神经网络难以“看见”幻觉轮廓!曾毅团队揭示人工智能与人类的显著认知差距 | Cell Press论文速递

日期: 来源:CellPress细胞科学收集编辑:Cell Press

交叉学科

Interdisciplinary

2023年2月28日,中国科学院自动化研究所曾毅研究员课题组在Cell Press细胞出版社旗下期刊Patterns上发表了一篇题为“Challenging Deep Learning Models with Image Distortion based on the Abutting Grating Illusion”的新研究。他们基于人类和生物视觉系统中广泛存在的幻觉轮廓现象启发,提出了一种将机器学习视觉数据集转换成幻觉轮廓样本的方法,量化测量了当前的深度学习模型对幻觉轮廓识别能力,实验结果证明从经典的到最先进的深度神经网络都难以像人一样具有较好的幻觉轮廓识别能力。

▲长按图片识别二维码阅读原文

研究亮点


  1. 提出了系统性生成幻觉轮廓样本的方法;

  2. 将视觉认知和机器学习数据集结合,实现了对神经网络幻觉轮廓感知能力的量化;

  3. 测试了大量公开的预训练神经网络模型;

  4. 发现幻觉轮廓感知较好的模型展现出了计算神经科学理论预言的端点激活现象。


神经网络和深度学习模型在过去十年中看似取得巨大成功,在许多给定的视觉任务中在指定方面超过了人类表现。然而,神经网络的性能仍然会随着各种图像扭曲和损坏而降低。一个非常极端的例子是对抗攻击,通过在图片上施加人眼难以察觉的微扰,能够使神经网络模型彻底失效。而人类的视觉系统在这些问题上具有高度鲁棒性,说明深度学习与生物视觉系统相比仍然存在根本性缺陷。


图1 心理学中经典的幻觉轮廓图像


幻觉轮廓是认知心理学中经典的幻觉现象,在没有颜色对比度或亮度梯度的情况下,生物视觉系统能够感知到一个清晰的边界。这一现象已经在人类和多种动物物种中被广泛发现,包括哺乳动物、鸟类和昆虫等。独立进化的视觉系统中普遍存在幻觉轮廓感知能力,表明它在生物视觉处理中具有基础和关键的作用,因此幻觉轮廓感知也应该是人工智能视觉系统所必须具备的能力。幻觉轮廓最著名的例子是Kanizsa三角形,如图1a所示。它是由意大利心理学家Gaetano Kanizsa在1955年创造的。在Kanizsa三角形中,三个吃豆人形状引发中间一个突出的白色三角形的感知,它看起来比周围区域更亮,尽管该三角形没有边缘,而且其亮度与背景相同。Kanizsa正方形是Kanizsa三角形的一种变体,在生理学研究中也被广泛使用。除了Kanizsa幻觉外,幻觉轮廓通常还有其他形式,比如Ehrenstein幻觉和交错光栅幻觉(AbuttingGrating Illusion),如图1b和图1c。本文主要研究了深度学习对交错光栅幻觉的识别能力。交错光栅幻觉是一个经典的幻觉轮廓现象,位移的光栅会在没有亮度对比的情况下诱发出虚假的边缘和形状。标准的交错光栅错觉能够让人类在实际上没有物理边界的情况下感知到中间的垂直线。交错光栅错觉被广泛应用于生理学研究中,以探索幻觉轮廓的生物视觉处理。深度学习模型的幻觉轮廓感知相关研究相对较少,目前仅有几篇相关论文。研究深度学习模型对幻觉轮廓感知的鲁棒性比图像干扰鲁棒性更加复杂,主要障碍是幻觉轮廓的样本有限。大多数研究分析的幻觉轮廓都是在先前的心理学文献中手动设计的。这些测试图片无法直接与深度学习模型训练的任务相匹配,同时由于数量很少,无法形成一个有相对规模的测试集,很难以机器学习的方式去衡量深度学习模型的幻觉轮廓感知能力。


中国科学院自动化研究所曾毅研究员负责的类脑认知智能研究组提出了一种名为交错光栅扭曲(Abutting Grating Distortion)的图像干扰方法,作为量化神经网络模型幻觉轮廓感知能力的工具。该方法可直接应用于具有外部轮廓而没有纹理信息的剪影图像,从而系统性地生成大量幻觉轮廓图像。这项研究将这一方法应用于手写数字MNIST数据集和物体的剪影图像(16-class-ImageNet silhouettes)上,并且通过插值增强图像的清晰度,从而生成对人眼具有更强幻觉效应的测试集图像。图2给出了样例。这些测试图像允许对一些常见的基于手写数字MNIST数据集或自然物体图片ImageNet训练的深度学习模型进行直接测试,而无需对模型进行重新训练。由于不同的参数设置能够产生不同程度的幻觉效应,这项研究对人类被试者进行测试,用于了解不同的干扰参数对人类被试的幻觉轮廓感知能力的影响。


图2 交错光栅扭曲方法生成的样本


对于深度学习模型,这项研究针对MNIST数据集训练了全连接网络和卷积网络,针对经过插值生成的高分辨率MNIST数据集训练了AlexNet、VGG11 (BN)、ResNet18和DenseNet121。对于自然物体的剪影图像,这项研究收集了109种公开可用的预训练模型,包括TorchVision和timm模块的ImageNet预训练模型,从经典的AlexNet、VGGNet、ResNet到最新的ViT和ConvNeXt,以及GitHub上可以公开获取的数据增强模型,比如CutMix、AugMix和DeepAugment等模型。图3给出了在MNIST和高分辨率MNIST上训练的模型在交错光栅扭曲测试集上的结果。尽管在原始测试集上这些模型能够快速达到极高的准确率,在本研究产生的幻觉轮廓交错光栅扭曲测试集上的效果则是非常差,大部分情况下正确率收敛于10%,即几乎没有识别能力的随机水平。图4给出了预训练模型在交错光栅扭曲测试集上的准确率,将109个模型在不同的参数设置下的准确率分布用柱状图的形式绘制出来,同时用红色虚线代表随机水平。结果表明,大多数预训练模型的表现接近随机。另外可以观测到当交错光栅之间的距离较小时,存在一些模型的结果与其他模型的分布有较显著的差别。最终这项研究发现使用深度增强(DeepAugment)技术训练的模型相比其他模型能够显著增强模型对交错光栅扭曲数据集的识别。


同时这项研究也招募了24名人类受试者,从而评估不同的参数设置下,人类的幻觉轮廓感知能力以及其对数字和图像识别的影响。图5给出了人类在MNIST,高分辨率MNIST和物体轮廓这三个交错光栅扭曲测试集的子集(每个测试集随机抽取100张)上的测试结果,同时对比了之前深度神经网络在各任务所获得的最好结果。这项研究发现即使是当前最先进的深度学习算法在交错光栅效应的识别上也与人类水平相距甚远。


图3 MNIST和高分辨率MNIST测试结果


图4 预训练模型测试结果


图5 人类实验结果与深度学习测试结果对比


图6中,这项研究对使用深度增强技术训练的模型浅层的神经元活动进行可视化,同时对比相同结构但是并未使用深度增强技术训练的模型。可视化结果发现在无论模型是否使用了深度增强技术训练,都能够在模型的浅层发现沿着幻觉轮廓的神经元激活现象。然而只有在使用了深度增强技术训练的模型中,发现了类似端点激活神经元(Endstopped Neuron)的活动。端点激活神经元由Hubel和Wiesel最早发现,被认为参与了对幻觉轮廓的早期表征,并广泛用于幻觉轮廓感知的神经动力学计算建模。当线段的端点或拐角位于这些神经元的感受野中心时,它们被最大程度的激活,而将线段沿着感受野延伸则会降低激活程度。除了幻觉轮廓外,端点激活神经元还被广泛应用于模拟各种视觉感知现象,例如运动感知,曲率检测以及许多昆虫的小目标运动探测。在由深度增强算法训练的模型中发现了特定卷积核,其结构与计算神经科学理论所预言的端点激活神经元的空间排布拓扑结构相似,如图7所示。


总而言之,实验中的所有深度神经网络模型无论是否被训练,使用了什么方式训练,在maxpool层都产生了神经动力学层面的沿着幻觉轮廓的激活。然而即使如此,这一神经动力学层面的激活并没有能够帮助到深度神经网络最终在行为学层面识别出幻觉轮廓。而唯一拥有相对好的幻觉轮廓感知能力的深度增强模型,则表现出了端点激活效应(endstopping property),这一效应是其他模型没有表现出来的。这揭示了未来突破这个问题重点在于端点激活和幻觉轮廓的关系。


图6 ResNet50的浅层可视化结果


图7 类似端点激活神经元的现象和理论预言的拓扑结构


论文第一作者中科院自动化所类脑认知智能课题组范津宇说:“这项研究结合了认知科学和人工智能,提出了将传统机器视觉数据集转换成认知科学中的交错光栅幻觉图像,首次对大量的公开预训练神经网络模型的幻觉轮廓感知能力进行量化测量,并且从神经元动力学角度和行为学两个角度检验深度学习和神经网络模型对幻觉轮廓的感知。”


论文通讯作者中科院自动化所类脑认知智能课题组负责人曾毅研究员说:“我们认为这项研究最大的特点是从认知科学的角度检验和部分重新审视了当前看似成功的人工神经网络模型,并且证明人工神经网络模型与人脑视觉处理过程仍然存在着很大差距,这还只是人工智能与人类认知显著距离的冰山一角。大脑运作的机理和智能的本质将继续启发人工智能,特别是神经网络的研究。如想从本质上取得突破,人工智能需要借鉴并受自然演化、脑与心智的启发,建立智能的理论体系,这样的人工智能才会有长远的未来。” 


作者介绍



范津宇 

工程师

范津宇,中国科学院自动化研究所类脑认知智能研究组工程师。研究方向为类脑人工智能安全。



曾毅 

研究员

曾毅,中国科学院自动化研究所研究员、类脑认知智能研究组负责人、脑图谱与类脑智能实验室副主任、人工智能伦理与治理研究中心主任;中国科学院大学岗位教授、博士生导师;中国人工智能学会心智计算专业委员会主任;国家新一代人工智能治理专委会委员;联合国教科文组织人工智能伦理特设专家组专家。研究方向为:类脑人工智能、人工智能伦理、治理与可持续发展。

相关论文信息

论文原文刊载于Cell Press细胞出版社旗下期刊Patterns上,点击“阅读原文”或扫描下方二维码查看论文

▌论文标题:

Challenging deep learning models with image distortion based on the abutting grating illusion

▌论文网址:

https://www.cell.com/patterns/fulltext/S2666-3899(23)00026-0

▌DOI:

https://doi.org/10.1016/j.patter.2023.100695


▲长按图片识别二维码阅读原文


1974年,我们出版了首本旗舰期刊《细胞》。如今,CellPress已发展为拥有50多本期刊的全科学领域国际前沿学术出版社。我们坚信,科学的力量将永远造福人类。


CellPress细胞出版社


推荐阅读

新主编上任!坚持Patterns发展方向不动摇

▲长按识别二维码关注细胞科学

相关阅读

  • 4位谷歌Al绘画大牛携手创业,天使估值7个亿

  • 来源丨量子位(ID:QbitAI)作者丨衡宇最近的谷歌像个大漏勺,这不,又有AIGC核心成员联手跑路咯!据悉,这回跟谷歌say byebye的,是文生图核心团队——AI绘画模型Imagen论文的四位核心作者
  • 自动驾驶新基建:AI大模型及智算中心正在兴起

  • 佐思汽研发布《2023年AI大模型及自动驾驶智算中心研究报告》。近年来,人工智能的快速发展推动了自动驾驶的进步,而人工智能的三驾马车分别为:数据、算法、算力,本报告主要聚焦研
  • 一图看完深度学习架构谱系

  • 点击图片,查看会议报名详情 完整图 记忆网络在记忆网络分支中,hunkim 标注了三篇重要论文:《记忆网络》、《端到端记忆网络》、《DMN:动态记忆网络》。神经编程是记忆网络的下
  • 对话式AI搜索的技术路线猜想

  • ©作者 | 李忠利单位 | 腾讯研究方向 | 语义理解、文本纠错等ChatGPT 真是火爆全网了,铺天盖地的文章一个接一个。最近我老爹都来问我:“你的工作是不是跟那一串英文字母有关
  • 为什么ChatGPT仿如十万个为什么回答机?

  • 加星标,才能不错过每日推送!方法见文末动图近日人工智能ChatGPT火爆全球,各路吃瓜人士纷纷晒出与它的对话,有些回答令人拍案叫绝,也有一本正经的胡说八道;还有人用其辅佐文案写作
  • AIGC行业深度报告:ChatGPT-百度文心一言畅想

  • 《侠说》:新电商,商业智能,房产/金融需要下载报告的朋友,可扫下方二维码付费成为会员,侠说智库已含2.5万+份报告,5000+会员,下载不限制,基本保存日更新。文末加微可免费入群交流~➤~

热门文章

  • “复活”半年后 京东拍拍二手杀入公益事业

  • 京东拍拍二手“复活”半年后,杀入公益事业,试图让企业捐的赠品、家庭闲置品变成实实在在的“爱心”。 把“闲置品”变爱心 6月12日,“益心一益·守护梦想每一步”2018年四

最新文章

  • 阳光周末,快去看花!| 渝东北渝东南③

  • 三月春光和煦花儿竞相开放,蜂飞蝶舞走出户外,赏一赏春光,是不错的选择重庆日报在每个周末奉上赏花地图今天推出渝东北渝东南③►►►梅花恋上廊桥,黔江古镇春色烂漫春天,在黔江区
  • Chem最新上线论文扫码阅读 | 限时资源

  • 物质科学Physical science为了感谢广大作者、读者及审稿人对Chem的大力支持。我们将每三周一次与大家分享最新上线的部分综述及研究论文。全部限时开放阅读下载,长按识别二维