【直播】MOSS：如何打造对话式语言模型——对话复旦MOSS系统主要设计者和开发者--粉丝服务平台-粉丝头条-fensifuwu.com

【直播】MOSS：如何打造对话式语言模型——对话复旦MOSS系统主要设计者和开发者

日期： 2023-04-28 06:04:44 来源：蔻享学术收集编辑：OpenMMLab

活动名称：

MOSS：如何打造对话式语言模型——对话复旦MOSS系统主要设计者和开发者

活动时间：

2023年4月27日（周四）20:00

报告嘉宾：

孙天祥复旦大学博士生

主办单位：

OpenMMLab

直播通道

蔻享学术直播间

识别二维码，即可观看直播。

海报来源于主办方，侵删

分享嘉宾

孙天祥

复旦大学博士生，复旦 MOSS 系统主要设计者和开发者，作为第一作者在 ICML, AAAI, ACL, EMNLP, NAACL, COLING 等国际顶会发表多篇论文，据 Google Scholar 统计被引 1300 余次，担任相关会议程序委员会成员及审稿人，CCL2023 分委会共同主席。

分享内容

以数据为中心打造对话式语言模型
插件增强的对话语言模型
MOSS 开发历程和经验分享

详细内容

随着ChatGPT的爆火，近期工业界和学术界陆续推出了很多类 ChatGPT模型，开源社区中也出现了Alpaca, ChatGLM-6B, Open-Assistant等一系列开源项目，生态正在走向繁荣。然而，目前的开放项目和研究工作同质化现象严重，很多重要方面仍然存留空白，例如：

已开源数据主要集中在利用类似Self-Instruct方法合成的单轮指令微调数据，强调实用性（helpfulness）。合成数据所用的seed set相对随意，包含大量现有自然语言任务，难以满足现实世界多样化需求。
开源模型大多基于LLaMA微调，尚未出现针对中文优化的百亿级基座模型，通常只包含Supervised Fine-Tuning (SFT)，对于有效利用人类反馈数据的研究与项目相当有限。
各类ChatGPT模型的评测及对比较为随意，尚缺完备的评测数据集与评估体系。

为解决上述问题，复旦大学自然语言处理团队最近开源了部分MOSS数据与模型权重，包括MOSS-002的全部对话数据、MOSS-003 的部分示例数据与插件增强对话数据，除实用性外，还涵盖忠实性与无害性数据。MOSS-003训练数据集由部署后的MOSS-002收集的用户数据构建，更符合真实世界人类意图分布。

此外，他们开源了拥有160亿参数的MOSS基座语言模型，该模型在 CodeGen基础上进行特定中文继续预训练，加入约100B中文 tokens，显著提升中文语言能力。后续，他们将开源完整版MOSS-003 SFT训练数据、偏好数据、偏好模型及经偏好训练的最终模型，还将开放部分脱敏的真实用户数据，用于评估类ChatGPT模型质量。

MOSS迭代过程

目前开源的版本为MOSS 003，而二月份邀测版本为MOSS 002，一月份内测版本为OpenChat 001。

OpenChat 001

ChatGPT的问世大大冲击了国内NLP的发展。于是他们设想尝试构造数据；从论文附录获取user prompt，用text-davinci-003 扩展 40 万对话。在16B基座上微调，OpenChat 001具备指令遵循及多轮能力，能理解中文。

MOSS 002

MOSS 002基于OpenChat001，加入300亿中文token及大量优质中英文对话数据。完成推理加速、部署和前后端工作后，于2月21日内测。

MOSS 003

发现真实中文世界的用户意图与OpenAI InstructGPT论文中给出的用户提示分布存在很大差异。因此，他们基于真实数据重新生成了约110万常规对话数据，并构建了约30万插件增强对话数据。这些数据将陆续完整开源。然而，由于模型参数量较小和自回归生成范式，MOSS仍可能产生误导性和有害内容，请大家精神甄别和使用。

值得一提的是MOSS 003除了模型和数据的迭代，还有一个重要升级——插件系统。以下为目前可选的一些插件：