活动名称:
MOSS:如何打造对话式语言模型——对话复旦MOSS系统主要设计者和开发者
活动时间:
报告嘉宾:
孙天祥 复旦大学博士生
主办单位:
OpenMMLab
直播通道
蔻享学术直播间 |
海报来源于主办方,侵删
分享嘉宾
孙天祥
复旦大学博士生,复旦 MOSS 系统主要设计者和开发者,作为第一作者在 ICML, AAAI, ACL, EMNLP, NAACL, COLING 等国际顶会发表多篇论文,据 Google Scholar 统计被引 1300 余次,担任相关会议程序委员会成员及审稿人,CCL2023 分委会共同主席。
分享内容
以数据为中心打造对话式语言模型
插件增强的对话语言模型
MOSS 开发历程和经验分享
详细内容
随着ChatGPT的爆火,近期工业界和学术界陆续推出了很多类 ChatGPT模型,开源社区中也出现了Alpaca, ChatGLM-6B, Open-Assistant等一系列开源项目,生态正在走向繁荣。然而,目前的开放项目和研究工作同质化现象严重,很多重要方面仍然存留空白,例如:
已开源数据主要集中在利用类似Self-Instruct方法合成的单轮指令微调数据,强调实用性(helpfulness)。合成数据所用的seed set相对随意,包含大量现有自然语言任务,难以满足现实世界多样化需求。
开源模型大多基于LLaMA微调,尚未出现针对中文优化的百亿级基座模型,通常只包含Supervised Fine-Tuning (SFT),对于有效利用人类反馈数据的研究与项目相当有限。
各类ChatGPT模型的评测及对比较为随意,尚缺完备的评测数据集与评估体系。
为解决上述问题,复旦大学自然语言处理团队最近开源了部分MOSS数据与模型权重,包括MOSS-002的全部对话数据、MOSS-003 的部分示例数据与插件增强对话数据,除实用性外,还涵盖忠实性与无害性数据。MOSS-003训练数据集由部署后的MOSS-002收集的用户数据构建,更符合真实世界人类意图分布。
此外,他们开源了拥有160亿参数的MOSS基座语言模型,该模型在 CodeGen基础上进行特定中文继续预训练,加入约100B中文 tokens,显著提升中文语言能力。后续,他们将开源完整版MOSS-003 SFT训练数据、偏好数据、偏好模型及经偏好训练的最终模型,还将开放部分脱敏的真实用户数据,用于评估类ChatGPT模型质量。
Calculator:计算功能 Equation solver:求解方程 Text-to-image:文生图 Web search:联网搜索
推荐阅读
编辑:吴良秀
蔻享学术 平台介绍
蔻享学术平台,国内领先的一站式科学资源共享平台,依托国内外一流科研院所、高等院校和企业的科研力量,聚焦前沿科学,以优化科研创新环境、传播和服务科学、促进学科交叉融合为宗旨,打造优质学术资源的共享数据平台。
识别二维码,
下载 蔻享APP 查看最新资源数据。
点击阅读原文,查看更多精彩报告!