服务粉丝

我们一直在努力
当前位置:首页 > 财经 >

AAAI 2023 | HiCo: 一种简单有效的3D骨架动作表示学习框架

日期: 来源:PaperWeekly收集编辑:孙圣凯

©Paperweekly 原创 · 作者孙圣凯
单位 | 浙江工商大学
研究方向 | 自监督学习


本文介绍一篇 AAAI 2023 Oral 的工作。基于 3D 骨架的动作识别由于其轻量、鲁棒性好等特点,近年来受到了越来越多的研究关注,但如何利用无标签的数据学习 3D 骨架动作的特征表示以用于下游任务仍存在不少挑战。针对这一场景,本文作者提出了一种简单有效的基于层级对比的无监督 3D 骨架动作表示学习框架 HiCo

相较于传统无监督对比学习方法将 3D 骨架动作表示为一个特征向量后进行对比,HiCo 结合 3D 骨架自身时空多粒度结构特点将其表示为片段级、部件级、域级和实例级特征并在这些层次上进行层级对比,充分利用不同表示间的互补信息,在动作识别、动作检索等多个下游任务上达到了目前最好的性能,特别是在具有挑战性的 PKU-MMD II 数据集上动作识别任务准确度相比于现有方法提升了 16 点。



论文标题:

Hierarchical Contrast for Unsupervised Skeleton-based Action Representation Learning

收录会议:

AAAI 2023 (Oral Paper)

论文链接:

https://arxiv.org/abs/2212.02082

代码链接:

https://github.com/HuiGuanLab/HiCo





引言


动作识别在人机交互、智能监控、视频内容分析、游戏控制等领域有着广泛的应用。近年来,基于 3D 骨架的动作识别取得了显著进展,然而大多数工作以完全监督的方式训练网络,这需要大量人工标注的骨架数据,花费昂贵且耗时。因此无监督的 3D 骨架动作表示学习方法也逐步受到了研究人员的关注。


早期的相关无监督工作主要聚焦于生成式方法,将 3D 骨架动作编码后在不同的代理任务(像是骨架重构和骨架着色)指导下解码,以达到学习特征表示的目标。但是这类方法效果有限,性能更好、机制更简单的对比学习方法成为了近年来的主流。这些基于对比学习的方法通常将 3D 骨架动作表示为实例级 (instance-level) 特征,然后进行实例间的整体对比。


考虑到 3D 骨架动作具有层次结构的自然特征,这种表示对比方法可能是次优的。3D 骨架动作作为序列,时间维度上可以看作帧 (frame) 的集合,空间维度上可以看作节点 (joint) 的集合。同时帧或节点是基本元素,可以构建为更大粒度的元素,如片段 (clip) 或部件 (part)。 


受此启发,作者提出用于无监督 3D 骨架动作表示学习的层级对比框架 HiCo。HiCo 通过层级编码器网络将 3D 骨架动作序列编码为部件级 (part-level)、片段级 (clip-level)、域级 (domain-level)和实例级特征,并在这几个层次上分层地进行多级对比。这种层级对比与 3D 骨架动作的自然特点是一致的,并且提供了更多的监督信号,最终获得一个更好的动作特征表示。


▲ 图1. 典型对比学习和论文提出的HiCo框架示意图

作者贡献总结如下: 


1. 作者提出一种从时间域和空间域将3D骨架动作表示为多级特征的层级编码器。同时该方法适用于所有seq2seq编码器,灵活性好;


2. 基于 3D 骨架动作的多级特征表示,作者提出了一种新的无监督层级对比损失,在 3D 骨架动作表示学习中较典型的实例间对比损失更加有效;


3. 大量的实验显示了作者提出的 HiCo 在下游任务上达到了目前最好的性能,同时学习到的特征表示具有良好的迁移能力,对半监督场景也很高效。




方法


HiCo 有两部分组成,首先是在时间域 (temporal domain) 和空间域 (spatial domain)多个粒度上对 3D 骨架序列进行编码的层级编码器网络,得到其部件级、片段级、域级 (和实例级特征表示。然后是无监督层级对比学习模块,即在上述四个层次上共同进行对比学习。


▲ 图2. 具体方法示意图

层级编码网络


层级编码网络包括时间和空间两个分支,分别从时间域和空间域以多粒度方式编码得到多个特征。


片段级特征表示


具体来说,在时间分支中,作者通过从不同长度的片段中提取特征。给定 3D 骨架动作序列 (T 为帧数,J 为节点数),首先将其重排为帧列表的形式,即, 以使用 seq2seq 模型提取时间特征。然后使用一个 MLP 将帧信息映射到高维嵌入空间:

为了得到不同长度的 clip,作者提出了一种简单通用的下采样方法 UDM (Unified Downsampling Module),即通过一维卷积加一维最大池化的可训练方式缩短序列长度。


通过不断调用 UDM,就得到越来越短的序列,这样不同粒度 clip 包含不同时间尺度的信息,具有较强的互补性。


然后使用 seq2seq 模型建模时间上的依赖关系,再通过时间维度上的最大池化将帧级特征聚合为视频级特征,对每个粒度的 clip 都进行这样的操作就可以得到片段级特征。


部件级特征表示

空间分支在空间域上提取不同空间粒度特征形成部件级特征表示也是类似的。将原始 3D 骨架序列重排为节点列表,即 。然后通过上述类似的嵌入、下采样、空间依赖关系建模、特征聚合就可以得到部件级特征。

部件级特征表示

空间分支在空间域上提取不同空间粒度特征形成部件级特征表示也是类似的。将原始 3D 骨架序列重排为节点列表,即 。然后通过上述类似的嵌入、下采样、空间依赖关系建模、特征聚合就可以得到部件级特征。

域级和实例级特征表示

最后,作者将不同粒度的片段级特征融合为时间域特征,将不同粒度的部件级特征融合为空间域特征,再将这两个域级特征融合为实例级特征,由此得到了多层级结构的多特征表示。


层级对比


不同于之前的对比学习方法只在实例间进行对比,作者在多特征表示的基础上,构建了更多的监督信号来学习更好的特征表示。

实例级对比


实例间对比与典型对比学习是相同的,即在实例级特征上进行实例判别(对比)任务,具体来说就是在不同数据增强下的同一个样本的两个实例级特征和其他样本的实例级特征间进行正负样本判别。

域级对比


在域级上,作者认为不管时间域还是空间域都是同一样本的不同表示,应有相同的高级语义信息,可以用来相互作为监督信号,所以将它们看作互为正样本。所以使用了跨域的对比方法,希望时间域和空间域特征在嵌入空间中尽可能接近。

片段级和部件级对比


在片段级和部件级上,不同粒度特征也类似地应有相同的高级语义信息,看作互为正样本。不同粒度的特征数量较多,作者做了简化处理,将最小粒度的特征作为 query 去匹配其他样本。

所以最后的优化目标就是在这四个层级上进行正负样本判别。



实验


动作识别任务


将上述训练得的层级编码器冻结与全连接层线性分类器组合在下游动作识别任务上训练。这里作者使用了双向 GRU、双向 LSTM 和 Transformer 作为基础编码器在 NTU-60、NTU-120、PKU-MMD I 及 PKU-MMD II 四个数据集上展开实验。作者提出的 HiCo 使用不同 seq2seq 模型作为基础编码器均能大幅超越之前的工作。在具有挑战性的 PKU-MMD II 数据集上,比现有最好方法高出了将近 16%。这证明了作者提出的方法的有效性。



动作检索任务


在下游任务动作检索中,给定一个查询动作,使用 cosine 相似度检索出最相似的动作样本对应种类。下表显示了在 NTU-60 和 NTU-120 数据集上与其他方法的对比。作者提出的方法同样表现更好,再一次证明了其有效性。



其他下游任务


作者还尝试了迁移学习和半监督学习。在迁移学习中,模型现在某个数据集上预训练,然后迁移到 PKU-MMD II 数据集上微调。在半监督学习任务中,预训练后在下游任务训练阶段只使用部分标签。下表为与其他同类方法的比较,作者提出的 HiCo 也展现出了迁移能力好、高效的特点。




消融实验


作者在动作识别下游任务中对方法各个模块进行了消融实验。实验使用 Transformer 在 NTU-60 数据集上展开。首先是对层级编码器中多粒度方法和双分支方法的验证。在时间分支和空间分支中不断增加不同粒度的特征,均可以观察到显著的性能提升,证明了层级编码器中多粒度特征的有效性。



同样地,在层级编码器中结合时间空间双分支特征也有性能提升,证明了时间域、空间域编码方法的有效性。



然后是对层级对比的消融实验。在实例级对比基础上不断添加域级对比、片段级对比和部件级对比,可以观察到性能逐步上升,证明了作者提出的层级对比的有效性。



最后,作者展示了多粒度特征有效性的 t-SNE 可视化结果。在时间分支上不断添加不同粒度特征,可以看到得到的特征聚类效果越来越好(DMI 为衡量聚类效果的指标,越低越好)。





总结


作者提出的多层级编码、多层级对比方法性能好、机制简单、适用性强,在各种下游应用上均能取得良好效果。作者认为HiCo在无监督3D骨架动作表示学习上可以用作新的强baseline。同时简单的机制蕴藏了应用到其他模态数据的可能。



更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


相关阅读

  • 阿里达摩院专利实现图像生成二维仿真道路地图

  • 科技边角料获悉阿里巴巴达摩院(杭州)科技有限公司日前公开“一种仿真地图生成方法、电子设备及计算机存储介质”发明专利,基于图像即可生成相应的二维仿真道路地图,整个过程无需
  • 百度专利可使数字人深度学习唇部动作

  • 科技边角料获悉北京百度网讯科技有限公司“虚拟对象驱动方法、深度学习网络的训练方法及装置”专利日前获授权,涉及人工智能领域,尤其涉及深度学习、计算机视觉、虚拟/增强现
  • 想要融资成功,要注意逻辑性,否则融资没戏!

  • 很多创业者融资看似很努力,可是他们永远都融不到资,因为他们可能从一开始就错了,可是却没有任何投资人告诉他。创业是一个很难的事情,但是创业者可以是任何人。投资却不一样,能够
  • 昌平这五项经济指标,位居全市前十!

  • 近日,记者从区统计局获悉,2022年我区坚持稳中求进工作总基调,持续高效统筹疫情防控和经济社会发展,着力稳住经济大盘,共有5项主要经济指标位居全市前十。2022年,全区实现地区生产
  • iPhone13和14深度对比,谁更值得买?

  • 如果单纯对比手机性能,iPhone14肯定优于iPhone13。但是综合考虑性价比之后,iPhone14和iPhone13确实很难选择。如果你是土肥原二代或者草地二代,本篇文章就此划过。如果你目前还
  • 数字营销传播环境下广告学人才培养的实践探索

  • | 摘 要 | 数字技术的发展对诸多行业带来了深刻变化。营销传播业作为全面受到数字技术影响的典型行业,一直在寻求业务创新及流程优化以适应当下环境。在这一背景下,营销传播业

热门文章

  • “复活”半年后 京东拍拍二手杀入公益事业

  • 京东拍拍二手“复活”半年后,杀入公益事业,试图让企业捐的赠品、家庭闲置品变成实实在在的“爱心”。 把“闲置品”变爱心 6月12日,“益心一益·守护梦想每一步”2018年四

最新文章

  • 重磅!埃斯顿与三一机器人达成战略合作

  • 近日,南京埃斯顿自动化股份有限公司(下称:埃斯顿)与三一机器人科技有限公司(下称:三一机器人)在长沙举行战略合作签约仪式,双方将在智能制造领域建立长期战略合作伙伴关系。据悉,双方
  • 比克动力冲刺资本市场!

  • 以下文章来源于维科网锂电 ,作者尔东来自比克动力股东方的消息,透露比克动力在资本市场层面的新动向。长信科技(300088)于2月16日在投资者互动平台上,回答了投资者关于“比克动力
  • “小平台”构建宣讲大格局

  •   “午饭过后,我都会打开手机朋友圈,收看镇上发布的‘语润碁山’系列宣讲,这成了我饭后必备的下午茶。”1月29日,莒县碁山镇天宝村村民孙女士乐呵呵地说。  自从碁山镇把宣