服务粉丝

我们一直在努力
当前位置:首页 > 财经 >

商汤发布多模态多任务通用大模型“书生2.5”,迈向AGI通用人工智能

日期: 来源:商汤科技SenseTime收集编辑:商汤君
今天,商汤科技发布多模态多任务通用大模型“书生(INTERN)2.5”。

其拥有30亿参数,是目前全球开源模型中ImageNet准确度最高、规模最大,同时也是物体检测标杆数据集COCO中唯一超过65.0 mAP的模型。

凭借在多模态多任务处理能力方面多项突破,“书生2.5”的图文跨模态开放任务处理能力可为自动驾驶机器人等通用场景任务提供高效精准的感知和理解能力支持,向通用人工智能迈出坚实的一步。“书生”由商汤科技、上海人工智能实验室、清华大学、香港中文大学、上海交通大学于2021年11月首次共同发布,并持续联合研发。

即日起,“书生2.5”多模态通用大模型已在商汤参与的通用视觉开源平台OpenGVLab开源
https://github.com/OpenGVLab/InternImage

迈向AGI通用人工智能

当今快速增长的各式应用需求下,传统计算机视觉已无法处理真实世界中数不胜数的特定任务。我们迫切需要一种具备通用场景感知和复杂问题处理能力的高级视觉系统。

“书生2.5”实现了通过文本来定义任务,从而可以灵活地定义不同场景的任务需求,并根据给定视觉图像和任务的提示性语句,给出相应的指令或作答,进而具备通用场景下的高级感知和复杂问题处理能力,比如图像描述、视觉问答、视觉推理和文字识别等。

在自动驾驶和居家机器人等通用场景下,“书生2.5”可辅助处理各种复杂任务。

例如,在自动驾驶场景中,可以大幅提升场景感知理解能力,准确辅助车辆判断交通信号灯状态、道路标志牌等信息,为车辆决策规划提供有效信息输入。

利用多模态多任务通用大模型辅助完成自动驾驶场景中各类复杂任务


利用多模态多任务通用大模型辅助完成居家机器人场景中各类复杂任务


除解决自动驾驶和居家机器人这类复杂问题的能力,“书生2.5”通用大模型也可解决纷繁复杂的日常生活中的常见任务,满足各种需求


除全图级别的以图生文,“书生2.5”通用大模型同样可根据物体边框更精细化定位任务需求


“书生2.5”同时具备AIGC“以文生图”的能力。可根据用户提出的文本创作需求,利用扩散模型生成算法,生成高质量、自然的写实图像

例如,借助“书生2.5”的以文生图能力帮助自动驾驶技术研发,通过生成各类真实的道路交通场景,如繁忙的城市街道、雨天拥挤车道、马路上奔跑的狗等,生成写实的Corner Case训练数据,进而训练自动驾驶系统对Corner Case场景的感知能力上限。


“书生2.5”还可根据文本快速检索出视觉内容

例如,可在相册中返回文本所指定的相关图像,或是在视频中检索出与文本描述最相关的帧,提高视频中时间定位任务的效率。此外还支持引入物体检测框,根据文本返回最相关的物体,实现开放世界视频或图像中物体检测及视觉定位。


高效能打通自然语言、图像等多模态任务处理

“书生2.5”在图文跨模态领域卓越的性能表现来自于视觉、语音及多任务建模三大模型能力的有效融合,即InternImage-G通用视觉大模型用于文本理解的超大语言预训练模型(LLM)用于多任务的兼容解码建模大模型(Uni-Perceiver)

其中,InternImage-G通用视觉大模型能够基于动态稀疏卷积算子自适应地调整卷积的位置和组合方式,从而为多功能视觉感知提供强大的表示。

超大语言模型通过在超大规模丰富文本语料库上进行预训练提供强大可靠的文本特征。

Uni-Perceiver通才任务解码建模通过将不同模态的数据编码到统一的表示空间,将不同任务统一为相同的任务范式,从而能够以相同的架构和共享的模型参数同时处理各种模态和任务。

此外,“书生2.5”还创新性地引入了任务级别的稀疏激活机制,使其具备高效率的多任务协作能力。

在视觉主流图像分类数据集ImageNet上,该模型仅基于公开数据便达到90.1%的Top-1准确率。这是除谷歌与微软之外,唯一准确率超过90.0%的模型。值得一提的是,谷歌与微软均未公开模型及额外数据集。

除高精确度的语义理解能力外,“书生2.5”在目标定位性能上同样有着出色的表现。在物体检测标杆数据集COCO上,取得了65.4的mAP。“书生2.5”也在包括图像分类、物体检测、语义分割、图像描述、图文检索等20+个不同场景、不同任务的单模态和跨模态公开数据集中都取得了最佳成绩

“书生2.5”在20余个不同场景不同任务的单模态和跨模态公开数据集中都取得了最佳成绩


当前,“书生”还在持续学习、不断进步,致力于推动多模态多任务通用模型技术的突破,驱动通用人工智能技术的创新应用生态,为推动人工智能学术、产业发展做出贡献。

关于OpenGVLab 

OpenGVLab致力于通用视觉模型的开源社区建设,开源项目覆盖数据、模型、评测基准全链路,为学术界和产业界的多模态通用模型研发提供坚实支撑。在数据方面,OpenGVLab构建了千万级超大规模精标注数据集,涵盖了图像分类、目标检测等视觉核心任务的标注,同时包括各类图像中的属性、状态等的精细标注,显著降低了数据采集成本。在模型方面,OpenGVLab的开源项目全方位覆盖了通用模型架构、高效训练框架及超高性能的预训练模型,助力社区用极低的数据量快速满足多场景、多任务、高性能的AI模型训练,并供所有对人工智能技术感兴趣的人士自由体验。OpenGVLab还提供了多任务、多模态的通用视觉评测基准,可提供权威的评测结果,推动基于统一标准的公平和准确评测,加快通用视觉模型的产业化应用步伐。

通过开源社区建设,OpenGVLab帮助开发者显著降低通用视觉模型的开发门槛,用更低成本快速开发用于成百上千种视觉任务、视觉场景的算法模型,高效实现对长尾场景的覆盖,推动通用AI技术的规模化应用。

官网:http://opengvlab.shlab.org.cn
GitHub:https://github.com/opengvlab

  相关阅读,戳这里 


《书生:新一代通用视觉技术体系》

《通用视觉研究利器来了!OpenGVLab平台正式开源》


相关阅读

  • 灭火拉动演练 锤炼实战能力

  • 随着火险等级持续升高,森林防火形势严峻。为进一步增强全体指战员的战备意识,检验队伍春防备战水平,提高遂行灭火作战任务能力,确保遇有任务能够随时“拉得出、上得去、打得赢”
  • 惊呼!在Mac上可以跑LLaMA啦!附上详细教程

  • 编|好困 源|新智元现在,Meta最新的大语言模型LLaMA,可以在搭载苹果芯片的Mac上跑了!前不久,Meta前脚发布完开源大语言模型LLaMA,后脚就被网友放出了无门槛下载链接,「惨遭」开放。消
  • AIGC如何改变Web3的未来?

  • “AIGC在Web3中的场景和用例。”作者 | 番摊123AIGC作为继PGC,UGC之后全新的内容生产方式,眼下的火热在全球范围内有目共睹,从文字到图片再到将来的视频,AI生产的内容和视觉资
  • 未雨绸缪忙备战 吹响“春防冲锋号”

  • 入春以来,随着气温逐步回暖,大风天气增加,林草植被愈发干燥,极易引发森林火灾,为进一步提升队伍遂行防火灭火任务能力,提升全体人员防火意识,连日来,赤峰市森林消防支队克什克
  • 技术人员为压沙任务保驾护航

  • 作为防沙治沙的主力军,古浪“林业人”长年奋战在风沙一线,为保护生态、守卫家园默默奉献。在古浪县2023年春季义务压沙活动中,县林草局技术人员一如既往奔忙在义务压沙区域,坚守
  • 你不应该一心多用:管理者的“懒人工作法”

  • 编者按:工作中,人人都崇尚多任务处理,希望自己能做到多任务处理,并且羡慕别人多任务处理的能力。但是科学家的研究发现,多任务处理其实是一种“假象”,人类的脑子并不能做到多一心
  • 姬宝吐槽 | 对肛肠医生的最高礼赞

  • 肛好有你还是男生比较懂得突出重点孩子还不懂,在他拒绝做鉴定的那一刻起,他就失去父亲了。喝两口酒往那一趴,睡一觉就能拿钱,便宜都让这小子给占了确实是“挂”面摘了眼罩一看,果

热门文章

  • “复活”半年后 京东拍拍二手杀入公益事业

  • 京东拍拍二手“复活”半年后,杀入公益事业,试图让企业捐的赠品、家庭闲置品变成实实在在的“爱心”。 把“闲置品”变爱心 6月12日,“益心一益·守护梦想每一步”2018年四

最新文章

  • 降价!新疆下月起执行

  • 近日记者从自治区医疗保障局获悉我区将于4月落地执行口腔种植体集中带量采购预计口腔种植体耗材集采后每年可为患者节约费用约0.16亿元此前国家医疗保障局开展口腔种植医疗
  • “为一头牛值吗?” “值!”

  • 3月12日莎车县亚喀艾日克乡阔纳吾斯塘村一居民家中的小牛不慎落水危急关头辅警阿布都热西提·阿西克跳入水渠进行施救他在激流中几次被冲倒在民警、辅警和周边群众的配合下
  • 澳洲最大黑帮,全员身高不到半米

  • 澳大利亚的野猫。/图虫创意在澳大利亚,人和猫几乎一样多,他们已经“打”了很多年了。看起来人畜无害,我见犹怜的猫猫,是澳大利亚123种本土物种的主要威胁,并已造成至少20种当地物
  • 出发!新疆赏花攻略来啦~

  • 三月春回大地准备好去踏青赏杏花了吗?从有“新疆第一春”之称的吐鲁番到近两年热门的高原杏花再到小白杏、黄杏的故乡攻略已备好,请查收↓3月9日,吐鲁番市高昌区的杏花已经开放
  • 长期喝冰水的人,后来都怎么样了

  • ‍本文经授权转载自答案如下(ID:theanswer163)图源:pexels三伏天,温度动辄飙到40度,冲击着每一个南方人的神经。从起床到睡前,一杯又一杯,你只能不间断地喝下冰水,给自己的身体和内