统一-IO:视觉、语言和多模式任务的统一模型

我们提出了Unified-IO,一个能够执行大量人工智能任务的模型,包括经典的计算机视觉任务,包括姿势估计、物体检测、深度估计和图像生成,视觉和语言任务,如区域字幕和参考表达理解,以及自然语言处理任务,如问题回答和转述。.由于与每个任务相关的输入和输出都是不同的,包括RGB图像、每像素地图、二进制掩码、边界框和语言,因此为如此多的任务开发一个单一的统一模型构成了独特的挑战。.我们通过将每个支持的输入和输出同质化为一串离散的词汇标记来实现这一统一。.这种跨越所有任务的共同表述使我们能够在视觉和语言领域的80多个不同的数据集上共同训练一个基于变换器的体系结构。.统一IO是第一个能够在GRIT基准上执行所有7项任务的模型,并在16个不同的基准上产生了强大的结果,如NYUv2-Depth、ImageNet、VQA2.0、OK-VQA、Swig、VizWizGround、BoolQ和SciTail,没有进行具体的任务或基准微调。.统一IO的演示可在https://unified-io。.阿利奈.基金会.

《Unified-IO: A Unified Model for Vision, Language, and Multi-Modal Tasks》

论文地址:http://arxiv.org/abs/2206.08916v1

统一-IO:视觉、语言和多模式任务的统一模型

统一-IO:视觉、语言和多模式任务的统一模型

统一-IO:视觉、语言和多模式任务的统一模型

统一-IO:视觉、语言和多模式任务的统一模型

发表评论
留言与评论(共有 0 条评论) “”
   
验证码:

相关文章

推荐文章