在一些修图软件上
我们可以轻松地
抠出图片中的人像
但是面对一连串运动的图像
我们该怎么办呢?
武汉大学遥感信息工程学院
有这样一个团队
就凭借视频分割方向的成果
问鼎国际顶尖赛事双冠军!
双冠王,实至名归!
视频与图像,已经越来越离不开我们的工作和娱乐生活。视频的编辑、加工与包装技术也在愈发成熟。如果在一段视频中,想把我们的人像抠出来,将背景变成武大的校园,应该怎么做呢?视频分割就在这里派上了用场。在国际计算机视觉与模式识别会议(CPVR)和计算机视觉国际大会(ICCV)两大赛事上,武汉大学遥感信息工程学院季顺平教授和2023级博士研究生张韬凭借团队在视频分割上最新的研究成果,夺得了双赛道冠军。
视频是图像在时域上的扩展,视频分割要在图像分割的基础上,不仅要把每一帧图片中感兴趣的目标都分割出来,而且能够在时间维度上把相同目标都正确地关联在一起。在这次的学术会议上,团队针对目前视频分割方法难以良好利用复杂长视频的持续特征的问题提出了解构的视频实例分割方法,即DVIS方法,通过图像分割、目标追踪、全局精化三个关键阶段,把一个图像中所有感兴趣的区域都给分割出来,关联主帧、利用全局信息来优化每帧,达到更好的视频分割的效果。DVIS的应用范围十分广泛,从无人驾驶需要的连续追踪、感知附近车辆、行人的位置或状态,到直播平台的视频特效,都有它的位置。
目标明确,轻松拿下!
张韬接触到VIS视觉处理系统,是在2022年五月去短视频平台实习时。基于实习期间的业务需求和此前在图像分割领域的学习,张韬决定进军视频分割领域并着手调研。那时,长视频的分割处理尚不受关注,Mask2Former-VIS是当时最为先进的技术手段。
带着对Mask2Former-VIS的一些改进成果,张韬参加了CVPR 2022的LSVOS挑战赛并拿下了第五名的成绩。也正是在这次比赛中,他们发现制约Mask2Former-VIS性能的最根本原因,即利用位置先验来一次性关联目标。在当时,张韬和小伙伴们沿着前人思路钻研,尝试设计时空交互模块来提升效率,但结果不尽人意。虽然比赛没有拿下好的名次,但也为张韬之后的研究提供了充足的经验。
磨刀不误砍柴工,先前实习和竞赛的积累在此刻展现出来,让他们确立了正确的研究目标,从而少走弯路,高歌猛进,最终夺冠。“季老师会为项目申请继续推进的资金,一次次把控研究的具体方向,逐字逐句地润色论文。在老师的帮助下,我们最终获得了双冠军。”张韬回忆道。
“未来,我们精益求精”
(来源:武汉大学微信公众号 编辑:吕艳丽)