英伟达升级AI工具包NeMo Megatron

作为英伟达AI平台的一部分,NeMo框架帮助用户建立和训练GPU加速的深度学习模型;作为该框架的一部分,NeMo Megatron专注于大型语言模型(LLM)的数据收集和训练,评估这些模型,并使用这些模型进行推理。现在,英伟达宣布,随着LLM的持续激增中,它正在升级NeMo Megatron,使其训练速度提高30%。


“LLM处理需要大量的计算和内存。此前,开发人员必须在两种简单的方法中做出选择:重新计算激活的所有数据,或者将它们保存在内存中。”英伟达深度学习软件副总裁Ujval Kapasi解释道。“前者在需要时节省了大量内存,但以大量额外的计算为代价。”因此,NeMo Megatron具有几个重大变化。

首先是序列并行性。LLM中的一些转换器块之前是在所有GPU上计算;新发布的NeMo Megatron则将这些块分配共享到许多GPU上计算。

其次,SAR(selective activation recomputation)提供了一个类似于序列并行的功能,注意到内存限制迫使一些(但不是所有)激活重新计算。在这些情况下,SAR干预、检查点和重新计算每个转换器层的选择元素,以减少内存影响,而无需大量的计算开销。“选择性激活重新计算是一种纯粹的软件优化,根本不会改变用来训练LLM的算法,所以它可以应用于任何类型的学习场景。

最后,一个新的超级参数工具。英伟达表示,该工具通过不同参数的启发式和经验网格搜索来识别最佳训练和推理配置。它根据数据并行度、张量并行度、管道并行度、序列并行度、微批处理大小和激活检查点层数来判断可能的配置。

英伟达报告称,这些工具对NeMo Megatron的速度有很大的影响。序列并行和SAR节省了大约5倍的激活内存,并将最大模型的重新计算开销从36%减少到2%。

与普通配置相比,新的超参数工具可将具有1750亿个参数的GPT-3模型的训练速度提高20%至30%。将序列并行性和SAR添加到新的超参数工具中,可以进一步提高10%到20%的吞吐量速度(至少当应用于超过200亿个参数的模型时)。

英伟达表示,对于那些更大的模型,新版本的NeMo Megatron比之前的版本快了大约30%,这样一个1750亿参数的GPT-3模型现在在1024个A100 GPU上训练只要24天。

这种加速是多种因素共同作用的结果。超参数工具可以发现在给定的模型大小和给定的GPU数量下,哪个超参数组合提供了最佳的吞吐量;选择激活重计算避免了对转换器块内所有激活的重计算;序列并行性避免了每个GPU上某些层的冗余计算。”

英伟达将NeMo Megatron的新闻与最近火热的LLM消息联系起来:拥有1760亿参数的BLOOM最近刚刚成为世界上最大的开放访问的多语言LLM(延展阅读:突破大型语言模型的花园围墙),它使用英伟达的AI平台进行训练。英伟达将此类LLM称为“当今最重要的先进技术之一”,其开发过程“昂贵、耗时”。该公司表示,AI社区将继续利用英伟达的AI平台来推进LLM,并克服这些障碍。

当然,LLM吸引的注意力不仅仅限于人工智能行业。因为他们通常具有令人信服地阐述想法、回答问题、模仿人类写作等不可思议的能力。这些能力使它们成为人工智能研究人员和公众经常关注的目标,许多人还提出或实施了LLM关于道德使用的各种框架。

发表评论
留言与评论(共有 0 条评论) “”
   
验证码:

相关文章

推荐文章