硕果累累,VIPL实验室以实力推动科研进步

6月16日,全球计算机视觉领域最高级别的学术会议—CVPR 2019在美国加州长滩开幕。
CVPR,Conference on Computer Vision and Pattern Recognition国际计算机视觉与模式识别会议,由IEEE举办,与ICCV和ECCV并列为计算机视觉领域世界三大顶级会议。每年都会吸引众多国际巨头公司和顶尖学府的研究人员投稿,代表着该领域最新最出色的科研成果。
本届CVPR 的论文投稿和接收数量再创新高:总共有超过 5165 篇论文投稿,接收 1299 篇,论文接收率为 25%。其中,大约 39% 的论文来自中国。与去年相比,今年CVPR的论文提交数量增加了56%,但论文接收率却下降了3.9%。在入选难度加大的情形下,中国科学院计算技术研究所视觉信息处理与学习研究组(VIPL实验室)再创佳绩,有 11篇论文脱颖而出顺利入选,包括口头报告1篇,海报展示10篇。
VIPL实验室入选论文涵盖行人检测、人脸识别、深度学习等多个方向,凭借人才优势和过硬的科研实力,通过开创性解决方案研究,攻克计算机视觉领域目前存在的技术短板,有针对性地突破发展瓶颈,为人工智能学术研究提供新思路。

以下是VIPL实验室入围CVPR 2019的论文(篇幅有限,仅节选部分,排名不分先后):
VRSTC: Occlusion-Free Video Person Re-Identification (Ruibing Hou, Bingpeng Ma, Hong Chang, Xinqian Gu, Shiguang Shan, Xilin Chen)
针对视频行人重识别的部分遮挡问题,我们提出了一个时空补全网络(Spatio-Temporal Completion network, STCnet)用来精确的恢复遮挡部位的信息。一方面,STCnet利用行人的空间结构信息,从当前行人帧中未被遮挡的身体部位信息预测出被遮挡的身体部位。另一方面,STCnet利用行人序列的时序信息去预测被遮挡部位。通过联合STCnet和一个行人再识别网络,我们获得了一个对部分遮挡鲁棒的视频行人再识别框架。在当前主流的视频行人再识别数据库(iLIDS-VID, MARS, DukeMTMC-VideoReID)上,我们提出的框架都优于当前最好的方法。

Interaction-and-Aggregation Network for Person Re-identification (Ruibing Hou, Bingpeng Ma, Hong Chang, Xinqian Gu, Shiguang Shan, Xilin Chen)
由于卷积单元固定的几何结构,传统的卷积神经网络本质上受限于对行人大的姿态和尺度变化建模。我们使用了一个网络结构(Interaction-and-Aggregation, IA)用来增强卷积网络对行人的特征表示能力。首先,空间IA模块通过建模空间特征的关联来整合对应相同身体部位的特征。区别于卷积神经网络从一个固定的矩形区域提取特征,空间IA能够根据输入行人的姿态和尺度自适应的决定感受野。其次,通道IA模块通过建模通道特征的关联进一步增强特征表示。我们在多个数据上验证了我们方法的有效性,并且都超过了目前最好的方法。

Relationship Learning with Person-specific Regularization for Facial Action Unit Detection(Xuesong Niu, Hu Han, SongFan Yang, Yan Huang, Shiguang Shan)
基于人脸活动部件的人脸表情识别能够有效地表征人类丰富的情绪。但是现有的人脸活动部件检测算法受制于人脸活动部件微弱的激活强度以及不同个体之间差异性。为了解决这些问题,我们设计了一种针对人脸活动部件的局部关系学习算法,通过充分利用不同人脸局部区域之间的关系进一步提高人脸不同区域的局部特征的感知能力。与此同时,我们还提出了一种针对人脸形状信息的正则项来剔除在人脸活动部件检测过程中人脸的形状信息的影响,进而获得更加有判别力和泛化能力的人脸活动部件检测器。在广泛使用的人脸活动部件检测数据集BP4D和DISFA上,我们均取得了优于当前最好方法的结果。

Self-supervised Representation Learning from Videos for Facial Action Unit Detection (Yong Li, Jiabei Zeng, Shiguang Shan, Xilin Chen)
面部运动编码系统 (FACS)从人脸解剖学的角度,定义了44个面部动作单元(Action Unit,简称AU)用于描述人脸局部区域的变化。面部动作单元能够客观、精确、细粒度地描述人脸表情。然而昂贵的标注代价在很大程度上限制了AU识别问题的研究进展,其原因在于不同的AU分布在人脸的不同区域,表现为不同强度、不同尺度的细微变化。具体来说,为一分钟的人脸视频标注一个AU,需要AU标注专家花费30分钟。我们提出了一种能够在不依赖AU标签的前提下,从人脸视频数据中自动学习AU表征的方法(Twin-Cycle Autoencoder,简称TCAE)。该方法以两帧人脸图像之间的运动信息为监督信号,驱使模型提取出用于解码运动信息的图像特征。考虑到两帧图像之间的运动信息包含了AU以及头部姿态的运动分量,TCAE通过一定的约束,使得模型能够分离出AU变化引起的运动分量。多个数据集上的实验证明,TCAE能够成功提取出人脸图像的AU及姿态特征。在AU识别任务上,TCAE取得了与监督方法可比的性能。

Weakly Supervised Image Classification through Noise Regularization ( Mengying Hu,Hu Han,Shiguang Shan,Xilin Chen)
弱监督学习是计算机视觉任务中的一个重要问题,比如图像分类,物体识别等,因为其可以工作于干净标签不可用的大规模数据集。然而,尽管有许多关于弱监督图像分类的研究,这些方法通常局限于单标签噪声或者多标签噪声场景。本文提出了一种有效的弱监督图像分类方法,使用了大量噪声标注数据和少量干净标注数据(比如5%)。该方法由一个主干网络,一个净化网络(clean net)和一个残差网络(residual net)组成。具体来说,主干网络用于学习图像特征,净化网络用于学习从特征空间到干净标签空间的映射,残差网络用于学习从特征空间到标签残差(干净标签和噪声标签之间)的映射。因此,残差网络以类似于正则项的工作方式增强净化网络的学习。我们在两个多标签数据集(OpenImage和MS COCO2014)和一个单标签数据集(Clothing1M)评估了该方法。实验结果表明,该方法优于现有的最好方法,并能对于单标签和多标签场景有很好的泛化能力。

Fully Learnable Group Convolution for Acceleration of Deep Neural Networks (Xijun Wang, Meina Kan, Shiguang Shan, Xilin Chen)
得益于深度学习在各种任务上取得了巨大的进展,其渐渐地被部署在各种低能耗的设备上(例如:手机、FPGA等)。为了应对深度学习模型带来的大量计算和内存占用,目前大多数方法尝试加速预训练模型或者直接设计高效的网络结构。本文基于同样的目标,设计了一种高效且可以嵌入任何深度神经网络模型的完全可学习组卷积(FLGC),FLGC的结构可以在训练阶段以一种端到端的模式完成学习,这种学习获得的结构比现存的硬分配、两步法甚至迭代法获得的结构更符合任务需求。FLGC结合深度可分离卷积(depthwise separable convolution)可以在原始Resnet50上实现单CPU加速5倍。同时,本文提出的FLGC的卷积组数不必像传统组卷积那样满足是2的幂,可以设定为任意正整数,这使得模型能够在性能和速度上寻求更好的权衡。根据我们的实验结果,在同样的卷积组数情况下,FLGC比传统组卷积在分类问题上获得了更高的准确率。

Deep Robust Subjective Visual Property Prediction in Crowdsourcing(Qianqian Xu, Zhiyong Yang, Yangbangyan Jiang, Xiaochun Cao, Qingming Huang,Yuan Yao)
在图像主观视觉属性的估计问题中,学界通常使用网络众包收集的成对比较数据进行研究。我们通过构建一个鲁棒的深度主观视觉属性预测模型,能够解决众包数据中异常样本所导致的估计偏差较大的问题。
Unsupervised Open Domain Recognition by Semantic Discrepancy Minimization (Junbao Zhuo, Shuhui Wang, Shuhao Cui, Qingming Huang)
深度学习超强的特征学习能力结合迁移学习以解决目标任务标注数据稀缺问题,是一个极具价值和意义的问题。我们提出开放域目标识别的新设定,即假定带标注源域和无标注目标域间存在域间差异,且源域是目标域的一个子集,任务是对目标域上的每个类别的样本都进行正确分类。对于存在未知类,我们通过WordNet构建图卷积神经网络,将已知类的分类规则传播给未知类别,并引入平衡约束来防止训练过程中未知类样本被分成已知类样本。此外,我们先对源域和目标域样本间求一个最优匹配,通过语义一致性来指导对源域与目标域(类别空间不对称)进行域适配。最后我们将分类网络和图卷积网络进行联合训练。实验证明所提方法的有效性。
Spatiotemporal CNN for Video Object Segmentation (Kai Xu, Longyin Wen, Guorong Li, Liefeng Bo, Qingming Huang)
我们创新地发现了一个统一的,可以端到端训练的时空卷积网络来解决视频目标分割任务,从而成功避免了目前对需要大量人工标注且经常出现误差的光流的过度依赖。
Cascaded Partial Decoder for Fast and Accurate Salient Object Detection (Zhe Wu, Li Su, Qingming Huang)
本文提出了一种级联的部分解码器网络用于快速精确的显著目标检测。在构建解码器时,我们不融合高分辨率的低层特征以加速模型。同时我们发现只融合高层特征会得到相对精确的显著图,因此我们使用生成的显著图来对深度特征进行去噪,这样可以有效的抑制特征中的干扰部分并提高其表达能力。
Exploring Context and Visual Pattern of Relationship for Scene Graph Generation (Wenbin Wang, Ruiping Wang, Shiguang Shan, Xilin Chen)
本文深耕现在鲜有探索的关系检测,提出挖掘关系之间上下文关联信息的方法和采用相交框提取关系特征的方法。
—END—
VIPL研究组隶属于中国科学院计算所及中科院智能信息处理重点实验室,同时也是先进人机通信技术联合实验室(JDL)的一部分。目前,VIPL研究组主要成员包括研究人员20余名、博士/硕士研究生50余名。研究组在相关领域发表研究论文500余篇,其中100余篇发表在计算机学会认定的领域A类国际期刊或会议上。研究成果获2015年度国家自然科学二等奖,2005年度国家科技进步二等奖等。
中科视拓(北京)科技有限公司是一家来自中国科学院计算技术研究所的人工智能基础设施服务商,核心团队来自国家万人计划领军人才山世光研究员和国家自然科学基金委杰出青年基金获得者陈熙霖研究员共同领导的中科院计算所智能信息处理重点实验室和中国科学院计算技术研究所视觉信息处理与学习(VIPL)研究组。中科视拓凭借在人脸识别与通用计算机视觉技术方面20多年的深厚积累,以"开源赋能共发展"的思路,打造AI视觉全栈能力—SeetaFace人脸识别与感知计算解决方案、AI算法调用平台—SeeTaaS自主可控人工智能生产平台和AI服务与计算中心—中科视拓云智中心三大产品线,致力于为政府、教育、制造、金融和零售等国民经济主战场行业提供一站式人工智能基础设施服务。
商务合作:
business@seetatech.com
市场合作:
pr@seetatech.com
加入我们:
hr@seetatech.com
| 留言与评论(共有 0 条评论) |