人工智能深度学习基于混合区域嵌入的零点目标检测机器学习算法(特约点评:本文的思路对于零样本目标检测的发展有很好的指导意义。来自网友大鹏的推荐!【欢迎大家给我们投稿,评论和关注,有大量机器学习,深度学习,人工智能等视频教程不定期送上!])
人工智能深度学习基于混合区域嵌入的零点目标检测机器学习算法简介:目标检测是计算机视觉研究中研究最多的任务之一。以前,尽管在精心制作物体检测表示方面做出了努力,但主流方法的成功率还是有限。然而,最近,基于卷积神经网络(ConvNet)的模型已经在检测速度和准确性方面取得了很大的进步。
人工智能深度学习基于混合区域嵌入的零点目标检测机器学习算法
尽管目标检测的最新技术无疑令人印象深刻,但目标检测器仍然缺乏语义可伸缩性。由于这些方法在很大程度上依赖于完全监督的训练方案,因此需要针对每个目标类别收集大量带有边界框注释的图像。由于其费力的性质,数据注释仍然是语义丰富和普遍化物体检测器的主要瓶颈。
零点学习(ZSL)旨在通过识别看不见的类(即没有训练示例的类)来最小化注释要求。这可以通过辅助数据将知识从看到的类转移到看不见的类来实现,通常从文本来源很容易获得。这种ZSL方法的主流示例包括将视觉和文本信息映射到联合空间的方法,以及那些明确利用跨类的文本驱动相似性的方法[30]。
然而,现有的ZSL方法主要侧重于分类问题。在这项工作中,我们将这种ZSL范式扩展到对象检测,并专注于零点检测(ZSD)任务。这里,目标是识别和本地化没有训练样例的对象类实例,纯粹基于描述类特征的辅助信息。研究ZSD的主要动机是观察到,在大多数零射击学习的应用中,例如机器人学,准确的物体定位与识别同等重要。
人工智能深度学习基于混合区域嵌入的零点目标检测机器学习算法贡献:我们的ZSD方法基于两种主流方法在零镜头图像分类中的适应和组合:(i)类别嵌入[30]和基于标签嵌入的分类[40]的凸组合。更具体地说,我们提出了一个由两部分组成的混合模型:第一部分利用监督对象检测器的检测分数将图像区域嵌入到类嵌入空间中。另一方面,第二部分学习从区域像素到类嵌入空间的直接映射。这两个区域嵌入然后通过比较它们与真实类别嵌入的相似性而被转换成区域检测分数。最后,我们通过将这两个组件集成到快速目标检测框架YOLO中来构建我们的零点检测器[33]。
我们注意到,我们的方法的两个组件都基本上提供给定测试图像的嵌入。我们一起使用它们的主要动机是使用两个互补的信息来源。具体而言,前者可以解释为由类别检测得分引导的语义合成方法,而后者则关注图像内容向类别嵌入空间的转换。因此,这两个组件分别有望更好地利用语义关系和视觉线索。
为了评估提议的ZSD方法的有效性,我们基于现有数据集创建新的基准。首先,我们通过用多个Fashion-MNIST [41]对象合成图像来创建一个简单的ZSD数据集。此外,Pascal VOC [12]数据集通过定义新的分割和设置,同样适用于ZSD任务。实验结果表明,我们的混合嵌入方法在两个数据集中都会产生令人满意的结果。
总之,我们在这项工作中的主要贡献如下:(i)我们定义了一个新的零点设置来检测未知类别的对象,(ii)我们提出了一种新的混合方法来处理新定义的ZSD任务, )我们介绍了两个基于Fashion-MNIST和VOC数据集评估ZSD方法的新基准。
人工智能深度学习基于混合区域嵌入的零点目标检测机器学习算法
人工智能深度学习基于混合区域嵌入的零点目标检测机器学习算法实验过程:我们的方法由两个部分组成:(i)利用类嵌套的凸组合,对[30]中的想法进行修改;(ii)直接学习将区域映射到类嵌入空间,通过扩展 标签嵌入方法从零镜头图像分类[2]。本节的其余部分解释了模型的细节:在前两个子部分中,我们描述了凸组合和标签嵌入组件。 然后,我们描述如何在YOLO检测框架内构建零点对象检测器。
人工智能深度学习基于混合区域嵌入的零点目标检测机器学习算法
人工智能深度学习基于混合区域嵌入的零点目标检测机器学习算法结论:看不见的类的准确定位与在诸如机器人等各种应用中识别它们同等重要。 而且,为了克服注释的瓶颈,需要更好的方法来丰富物体检测器。 为此,在这项工作中,我们解决了零镜头检测问题,并提出了一种新的混合方法,将标签嵌入和语义嵌入的凸组合集合在一个区域嵌入框架中。 通过将这两个组件集成在一个对象检测器主干中,可以检测没有视觉示例的类。 我们引入了两个用于评估ZSD方法的新测试平台,我们的实验结果表明,所提出的混合框架是实现ZSD目标的有希望的一步。