服务粉丝

我们一直在努力
当前位置:首页 > 情感 > 故事 >

DeepMind新方法:训练时间减少13倍,算力降低90%

日期: 来源:量子位收集编辑:量子位

大幅节省算力资源,又又又有新解了!!

DeepMind团队提出了一种新的数据筛选方法JEST——

将AI训练时间减少13倍,并将算力需求降低90%。

简单来说,JEST是一种用于联合选择最佳数据批次进行训练的方法。

它就像一个智能的图书管理员,在一大堆书(数据)中挑选出最适合当前读者(模型)阅读的几本书(数据批次)。

这样做可以让读者更快地学到知识(训练模型),还能节省时间(减少迭代次数)和精力(减少计算量)。

研究显示,JEST大幅加速了大规模多模态预训练,与之前的最先进水平(SigLIP)相比,迭代次数和浮点运算次数减少了10倍。

对于上述结果,有网友惊呼:

新研究将成为AI训练的游戏规则改变者!

还有人点出了关键:

对于担心人工智能需求过高的电网来说,这可能是个极好的消息!

那么,新方法究竟是如何运作的?接下来一起看团队成员相关揭秘。

揭秘新方法JEST

首先,现有的大规模预训练数据筛选方法速度慢、成本高,并且没有考虑到批次组成或训练过程中数据相关性的变化,这限制了多模态学习中的效率提升。

因此,DeepMind团队研究了联合选择数据批次而非单个样本是否能够加速多模态学习。

研究得出了3个结论:

挑选好的数据批次比单独挑选数据点更为有效在线模型近似可用于更高效地过滤数据可以引导小型高质量数据集以利用更大的非精选数据集基于上述,JEST能够在仅使用10%的FLOP预算的情况下超越之前的最先进水平。

这一结果是如何实现的呢?

据团队介绍,他们在之前的工作中已展示了,对最好的50%数据进行训练如何显著提高FLOP效率。

而现在,新研究证明过滤更多数据(高达90%)可以产生更好的性能。

这里有三个关键:

选择好的批次 > 选择稍微好的数据点调整默认的ADAM超参数非常高质量(但很小)的参考数据集具体而言,JEST是从一个更大的候选数据集中选择最佳的训练数据批次。

在数据选择标准上,JEST借鉴了之前关于RHO损失的研究,并结合了学习模型和预训练参考模型的损失来评估数据点的可学习性。JEST选择那些对于预训练模型来说较容易,但对于当前学习模型来说较难的数据点,以此提高训练效率和效果。

成员Nikhil进一步解释了多模态对比学习的过程,即通过最大化文本和图像嵌入的对齐性,同时最小化不相关数据之间的对齐性,来提高模型的性能。

利用这一点,团队采用一种基于阻塞吉布斯采样的迭代方法,逐步构建批次,每次迭代中根据条件可学习性评分选择新的样本子集。

与单独选择数据相比,新方法在过滤更多数据时持续改进。包括使用仅基于预训练的参考模型来评分数据也是如此,即CLIPScore,这是离线基础数据集筛选的流行基线。

不过,过滤更多数据会增加浮点运算次数(FLOPs),因为评分需要学习者和参考模型进行推理传递。

对此,团队在数据集中缓存了预训练的参考模型分数,他们采用了FlexiViT架构进行低分辨率评分,并在多种分辨率下进行了训练。

这一研究证明了:

多分辨率训练对于协调评分和学习者模型至关重要

另外,研究强调了使用高质量的精选数据集来训练参考模型的重要性,这有助于优化大规模预训练的数据分布,从而提升模型的泛化能力。

总而言之,相关变体JEST++和FlexiJEST++的性能显著优于许多其他先前的SOTA模型,同时使用的计算量更少。

针对大家可能的疑问:

为什么不只在用于参考模型的精选数据集上进行训练呢?

团队预先解释,相关结果表明精选的参考模型是专家型模型(在某些任务上表现良好)。JEST++利用专家型参考模型,将其转化为通用模型,在所有基准测试中都取得了改进。

最后,研究发现JEST++最终可以通过消除对预训练数据集的任何筛选需求来简化数据管理流程。

通过使用预训练参考模型,在未经筛选(原始)的网络规模数据上进行训练,性能几乎没有下降。

来自DeepMind

上述研究由来自DeepMind的4位成员共同完成。

Talfan Evans,至今在DeepMind工作3年多,是机器学习团队的一名研究科学家,近期研究方向是大规模模型数据训练和任务对齐。曾就读于伦敦帝国理工学院戴森机器人实验室(空间/视觉感知系统中的实时分布式推理)。

高级研究员Olivier Hénaff,至今在DeepMind工作5年多,专注于了解生物和人工智能的基本原理。在DeepMind一直研究自监督算法,近期对视觉表征如何构建我们的记忆、实现灵活的感知推理和长视频理解感兴趣。曾就读于美国纽约大学神经科学中心博士和法国巴黎综合理工学院硕士(数学)。

研究科学家Nikhil Parthasarathy,至今在DeepMind工作5年多,负责建立视觉感知模型,研究方向涵盖表示学习、计算机视觉、计算神经科学和视觉感知。曾就读于纽约大学博士,斯坦福大学本硕。

研究工程师Hamza Merzic,2018年加入DeepMind,研究领域包括主动学习、视觉想象、表征学习、强化学习、深度学习和机器人技术。他是瑞士联邦理工学院的硕士生,并在2023年至今期间担任博士生导师。

目前相关论文已公开,感兴趣可以进一步了解。

相关阅读

  • 三下乡|基层服务递温情,情暖夕阳不要“帕”

  • 为响应《中共中央、国务院关于加强新时代老龄工作的意见》等文件精神,完善老年人健康支撑体系,2024年7月4日至7月7日,我们团队成员远赴河北省泊头市,开展关爱老人尤其是关
  • 北京“两区”建设引领高水平开放

  •   2020年金秋,国家服务业扩大开放综合示范区和中国(北京)自由贸易试验区建设正式启动,北京迎来开放发展新篇章。  制度创新、园区发展、项目落地……北京以首善标准,紧抓“两
  • WAIC 2024 | “智”领未来,我们带来这些创新应用

  • 近日,2024世界人工智能大会暨人工智能全球治理高级别会议(简称“WAIC”)在上海举办。大会围绕核心技术、智能终端、应用赋能等三大板块,聚焦大模型、算力、机器人、自动驾驶等重
  • 多模态大模型引领的内容创作与安全实践

  • 作者:薛从豪:中科闻歌市场品牌部总监;王一刚:中科闻歌副总裁;彭佳柱:中科闻歌媒宣事业部总监;陈思含:中科闻歌政企事业部总经理;魏坚:福建省福清市政协委员服务中心干部来源:《全媒体探

热门文章

  • 2·14 “婚育户”一次办

  • 2月14日,沈阳的张先生和五莲县的丁女士握着手中的“红本本”,脸上是抑制不住的喜悦,这一天,他们不仅成为合法夫妻,更成为“婚育户”联办业务的新人。说起这项业务,张先生夫妇高兴

最新文章

  • DeepMind新方法:训练时间减少13倍,算力降低90%

  • 大幅节省算力资源,又又又有新解了!!DeepMind团队提出了一种新的数据筛选方法JEST——将AI训练时间减少13倍,并将算力需求降低90%。简单来说,JEST是一种用于联合选择最佳数据批次
  • 青春三下乡|走进“彝”乡,共赴青春之约

  • 乡村振兴,青年先行。为了引导和帮助广大青年在社会课堂中“受教育、长才干、做贡献”,成都农业科技职业学院“科技助农,智赋凉山”志愿服务实践团走进大山、走进民族团结地区、
  • 萧山:加速打造长三角“南翼”黄金节点

  • 萧山,正在加速打造长三角“金南翼”黄金节点。作为长三角“金南翼”头雁,2023年,杭州经济总量突破2万亿元,揭开了长三角2万亿“三城时代”的序幕。今年以来,随着杭甬“双城记”提
  • 南京溧水晶桥镇:坚守防汛一线 彰显巾帼力量

  • 7月9日,在溧水区晶桥镇连接石臼湖的新桥河大堤上,晶桥镇巾帼志愿者和防汛人员一起头顶烈日,巡堤查险。进入主汛期以来,晶桥镇妇联充分发挥“党有号召 妇联有行动”的表率作用,动