开源框架-Meta开源1750亿参数AI语言模型OPT

Meta AI Research发布了Open Pre-trained Transformer (OPT-175B),一个 175B 参数的 AI 语言模型。该模型在包含 180B 个令牌的数据集上进行了训练,表现出与GPT-3相当的性能,而只需要 GPT-3 的 1/7 的训练碳足迹。

开源框架——Meta开源1750亿参数AI语言模型OPT

该版本是在 Meta 研究人员Susan Zhang、Mona Diab和Luke Zettlemoyer撰写的博客文章中宣布的。为了帮助促进 AI 的开放和可重复研究,Meta 不仅发布了代码和训练模型权重,还发布了完整的操作日志,记录了训练过程中遇到的挑战。该模型是在非商业许可下发布的,旨在供“与政府、民间社会和学术界组织有关联”的研究人员以及行业研究人员使用。尽管必须通过申请流程授予对完整 175B 型号的访问权限,从 125M 到 30B 参数的较小版本可以作为HuggingFace Transformers库的一部分下载。

人工智能社区中更广泛的部分需要访问这些模型,以便进行可重复的研究并共同推动该领域的发展。随着 OPT-175B 和小规模基线的发布,我们希望增加定义此类技术伦理考虑的声音的多样性。

开源框架——Meta开源1750亿参数AI语言模型OPT

Transformer 深度学习架构已成为语言模型的事实标准,研究人员通过增加模型和训练数据集的大小取得了令人瞩目的成果。大部分研究都集中在仅使用自回归解码器的模型上,例如 GPT-3 和PaLM,它们在许多自然语言处理 (NLP) 基准测试中的表现与普通人类一样好。尽管一些研究机构,例如EleutherAI,已经提供了他们训练有素的模型权重,但大多数商业模型要么完全不向公众开放,要么被 API控制. 由于缺乏访问权限,研究人员很难深入了解已知模型性能问题领域的原因,例如毒性和偏见。

开源框架——Meta开源1750亿参数AI语言模型OPT

Meta 研究人员的 OPT 设计基于 GPT-3,并使用了OpenAI 研究论文中概述的架构和超参数。对于训练数据,该团队将用于训练RoBERTa的数据集与Pile和PushShift.io Reddit 数据集连接起来。总体而言,在对组合数据集进行清理和去重后,最终的语料库包含大约 180B 个标记。结合使用 Meta 的全分片数据并行(FSDP) 工具和 NVIDIA 的Megatron-LM 框架,训练过程实现了高吞吐量和能源效率。

与之前的许多研究工作不同,OPT 团队还发布了一份日志,其中包括实验训练运行的笔记、运行时异常和随叫随到的工程师响应,以及调试手册。研究人员还提出了在两个月的培训期间对他们的过程进行的一些调整。有“大量”硬件故障导致 35 次训练重启和超过 100 台主机循环。该团队还在训练期间对代码进行了几处更改,包括将训练优化器从 AdamW 切换到“vanilla SGD”并切换回来,以及升级到新版本的威震天。

在Hacker News 上关于日志的讨论中,一位用户指出这个过程看起来是多么“骇人听闻”,而其他人则指出,即时进行调整实际上是司空见惯的。另一位用户表示:

即使没有他们在大型训练集群中使用 GPU 时似乎遇到的大量硬件/驱动程序问题,这也说明了训练这样巨大的模型是多么困难。许多故障没有立即明显的原因。另外,没有那么多地方进行这种规模的培训,所以我想其中许多事情需要自己解决。



发表评论
留言与评论(共有 0 条评论) “”
   
验证码:

相关文章

推荐文章