服务粉丝

我们一直在努力
当前位置:首页 > 财经 >

“伶荔”(Linly) 开源大规模中文语言模型

日期: 来源:OSC开源社区收集编辑:
出品 | OSC开源社区(ID:oschina2013)
为了开发高性能中文基础模型,填补中文基础模型百亿到千亿级预训练参数的空白,大数据系统计算技术国家工程实验室团队在人工智能项目伶荔(Linly)框架下,推出了伶荔说系列中文语言大模型,目前包含中文基础模型和对话模型。
其中,中文基础模型以 LLaMA 为底座,利用中文和中英平行增量预训练,将它在英文上强大语言能力迁移到中文上。更进一步,汇总了目前公开的多语言指令数据,对中文模型进行了大规模指令跟随训练,实现了 Linly-ChatFlow 对话模型。
 
根据介绍,相比已有的中文开源模型,伶荔模型具有以下优势:
  1.  在 32*A100 GPU 上训练了不同量级和功能的中文模型,对模型充分训练并提供强大的 baseline。据知,33B 的 Linly-Chinese-LLAMA 是目前最大的中文 LLaMA 模型。

  2.  公开所有训练数据、代码、参数细节以及实验结果,确保项目的可复现性,用户可以选择合适的资源直接用于自己的流程中。

  3. 项目具有高兼容性和易用性,提供可用于 CUDA 和 CPU 的量化推理框架,并支持 Huggingface 格式。

目前公开可用的模型有:
  • Linly-Chinese-LLaMA:中文基础模型,基于 LLaMA 在高质量中文语料上增量训练强化中文语言能力,现已开放 7B、13B 和 33B 量级,65B 正在训练中。

  • Linly-ChatFlow:中文对话模型,在 400 万指令数据集合上对中文基础模型指令精调,现已开放 7B、13B 对话模型。

  • Linly-ChatFlow-int4 :ChatFlow 4-bit 量化版本,用于在 CPU 上部署模型推理。

进行中的项目:
  • Linly-Chinese-BLOOM:基于 BLOOM 中文增量训练的中文基础模型,包含 7B 和 175B 模型量级,可用于商业场景。

项目特点

Linly 项目具有以下特点:
1. 大规模中文增量训练,利用翻译数据提速中文模型收敛
在训练数据方面,项目尽可能全面的收集了各类中文语料和指令数据。无监督训练使用了上亿条高质量的公开中文数据,包括新闻、百科、文学、科学文献等类型。和通常的无监督预训练不同,项目在训练初期加入了大量中英文平行语料,帮助模型将英文能力快速迁移到中文上。
在指令精调阶段,项目汇总了开源社区的指令数据资源,包括多轮对话、多语言指令、GPT4/ChatGPT 问答、思维链数据等等,经过筛选后使用 500 万条数据进行指令精调得到 Linly-ChatFlow 模型。训练使用的数据集也在项目里提供。
训练流程如图所示:
2. 全参数训练,覆盖多个模型量级
目前基于 LLaMA 的中文模型通常使用 LoRA 方法进行训练,LoRA 冻结预训练的模型参数,通过往模型中加入额外的网络层,并只训练这些新增的网络层参数,来实现快速适配。虽然 LoRA 能够提升训练速度且降低设备要求,但性能上限低于全参数训练。为了使模型获得尽可能强的中文语言能力,该项目对所有参数量级都采用全参数训练,开销大约是 LoRA 的 3-5 倍。
伶荔语言模型利用 TencentPretrain 多模态预训练框架,集成 DeepSpeed ZeRO3 以 FP16 流水线并行训练。目前已开放 7B、13B、33B 模型权重,65B 模型正在训练中。模型仍在持续迭代,将定期更新,损失收敛情况如图所示:
3. 可支持本地 CPU int4 推理、消费级 GPU 推理
大模型通常具有数百亿参数量,提高了使用门槛。为了让更多用户使用 Linly-ChatFlow 模型,开发团队在项目中集成了高可用模型量化推理方案,支持 int4 量化 CPU 推理可以在手机或者笔记本电脑上使用,int8 量化使用 CUDA 加速可以在消费级 GPU 推理 13B 模型。此外,项目中还集成了微服务部署,用户能够一键将模型部署成服务,方便二次开发。

未来工作

据透露,伶荔说系列模型目前仍处于欠拟合,正在持续训练中,未来 33B 和 65B 的版本或将带来更惊艳的性能。在另一方面,项目团队不仅公开了对话模型,还公开了中文基础模型和相应的训练代码与数据集,向社区提供了一套可复现的对话模型方案,目前也有团队基于其工作实现了金融、医学等领域的垂直领域对话模型。
在之后的工作,项目团队将继续对伶荔说系列模型进行改进,包括尝试人类反馈的强化学习(RLHF)、适用于中文的字词结合 tokenizer、更高效的 GPU int3/int4 量化推理方法等等。伶荔项目还将针对虚拟人、医疗以及智能体场景陆续推出伶荔系列大模型。
相关链接:https://zhuanlan.zhihu.com/p/625786369

往期推荐



终身仁慈独裁者、Python之父龟叔,曾被认为最不可能发明自己的编程语言

程序员称8k工资高只要2k,这波MongoDB输麻了

“巨硬”要让Windows更硬,用18万行Rust代码重写核心Windows库



相关阅读

  • 电子垃圾Chromebook

  • 出品 | OSC开源社区(ID:oschina2013)美国公共利益研究小组 (US PIRG) 最近发布的一份报告谈论了大量 Chromebook 正在成为 “电子垃圾” 的问题 (Chromebook Churn)。原因在于
  • Java 17采用率四倍飙升

  • 出品 | OSC开源社区(ID:oschina2013)New Relic 最新发布了一份 “2023 年 Java 生态系统状况报告”,旨在提供有关当今 Java 生态系统状态的背景和见解。该报告基于从数百万个提
  • 又卡在硬件上了,咋整?

  • 作者:豆腐乳编辑:养乐多重要通知一个好消息,我们在知识星球开辟了第二战场【非凡油条】,有很多在公众号不方便说的东西、一些相对私密的个人见解(涉及经济、投资等)、一些财经方面
  • ChatGPT的跳跃式技术突破!

  • 将 脚本之家 设为“星标⭐”第一时间收到文章更新文末包邮送书!!!ChatGPT自从发布以来,一直热度不减,围绕它的话题也是持续不断。而ChatGPT 之所以引起这么大的社会反响,不仅仅是
  • 盘点 5 个 yyds 的 AI 绘画辅助工具

  • 国外著名的 AI 作图工具 Midjourney、Stable Diiffusion 都可以根据你输入的指令生成一张图片。如果你想输出高质量的图片,需要掌握一些 prompt 指令技巧。本文章便盘点了 5
  • AI 这是要杀疯啦!

  • ChatGPT 是基于 GPT 系列大模型开发出来的一个对话场景的 Demo,它已经让我们见识到了大模型的威力。但有些开发者的胃口不满足于此,已经开始尝试“突破” AI 的边界了,本文推荐
  • 4 月份 火火火火 的开源项目

  • 盘点 4 月份 GitHub 上 Star 攀升最多的开源项目,整个 4 月份最火项目 90% 都是 AI 项目(准确的说,最近半年的热榜都是 AI 项目)本期推荐开源项目目录:1. AI 生成逼真语音2. 复旦
  • 医疗GPT,硅谷又跑在了前面?

  • 作者|钱德新今年2月,哈佛医学院教授Tiffany H. Kung给ChatGPT出了一套美国医学执照考试。得出的结论是,ChatGPT在三个专家级知识的标准化测试中能够达到或接近60%的准确度,其辅

热门文章

  • “复活”半年后 京东拍拍二手杀入公益事业

  • 京东拍拍二手“复活”半年后,杀入公益事业,试图让企业捐的赠品、家庭闲置品变成实实在在的“爱心”。 把“闲置品”变爱心 6月12日,“益心一益·守护梦想每一步”2018年四
  • 美国对华2000亿关税清单,到底影响有多大?

  • 1 今天A股大跌,上证最大跌幅超过2%。直接导火索是美国证实计划对华2000亿美元产品加征25%关税。 听起来,2000亿美元数目巨大,我们来算笔账。 2000亿美元,按现在人民币汇率

最新文章

  • 电子垃圾Chromebook

  • 出品 | OSC开源社区(ID:oschina2013)美国公共利益研究小组 (US PIRG) 最近发布的一份报告谈论了大量 Chromebook 正在成为 “电子垃圾” 的问题 (Chromebook Churn)。原因在于
  • Java 17采用率四倍飙升

  • 出品 | OSC开源社区(ID:oschina2013)New Relic 最新发布了一份 “2023 年 Java 生态系统状况报告”,旨在提供有关当今 Java 生态系统状态的背景和见解。该报告基于从数百万个提
  • “伶荔”(Linly) 开源大规模中文语言模型

  • 出品 | OSC开源社区(ID:oschina2013)为了开发高性能中文基础模型,填补中文基础模型百亿到千亿级预训练参数的空白,大数据系统计算技术国家工程实验室团队在人工智能项目伶荔(Linl
  • 小米宣布停服的软件,可用这两款代替!

  • 啰嗦几句还记得“小米的云证件照”小程序么?这款小程序是小米官方软件,没有广告没有弹窗完全免费,但是就是这么好用的一款小程序,于2022年3月8日停服了。虽然停服了,但我们还有其
  • 官方开源免费,比IDM还好用!

  • 啰嗦几句关注我的小伙伴,对于IDM这款神器应该都不会陌生吧?这款全球最受欢迎的下载器,能实现多线程下载,是好多小伙伴下载资源的首选软件。不过呢,IDM是正版软件,如果用修改版的话
  • SolidWorks草图如何导出成CAD图纸?

  • 经常使用SolidWorks画图的设计师,就不想用CAD了,因为SolidWorks草图是尺寸驱动的画图,什么意思呢?就是SolidWorks草图你随便画,当你标注尺寸的时候就会自动的调整线条,而CAD则是你