服务粉丝

我们一直在努力
当前位置:首页 > 财经 >

【直播】MOSS:如何打造对话式语言模型——对话复旦MOSS系统主要设计者和开发者

日期: 来源:蔻享学术收集编辑:OpenMMLab



活动名称:

MOSS:如何打造对话式语言模型——对话复旦MOSS系统主要设计者和开发者

活动时间

2023年4月27日(周四)20:00

报告嘉宾:

孙天祥  复旦大学博士生

主办单位:

OpenMMLab

直播通道

蔻享学术直播间

识别二维码,即可观看直播。

海报来源于主办方,侵删


分享嘉宾


孙天祥

复旦大学博士生,复旦 MOSS 系统主要设计者和开发者,作为第一作者在 ICML, AAAI, ACL, EMNLP, NAACL, COLING 等国际顶会发表多篇论文,据 Google Scholar 统计被引 1300 余次,担任相关会议程序委员会成员及审稿人,CCL2023 分委会共同主席。


分享内容

  • 以数据为中心打造对话式语言模型

  • 插件增强的对话语言模型

  • MOSS 开发历程和经验分享

详细内容

随着ChatGPT的爆火,近期工业界和学术界陆续推出了很多类 ChatGPT模型,开源社区中也出现了Alpaca, ChatGLM-6B, Open-Assistant等一系列开源项目,生态正在走向繁荣。然而,目前的开放项目和研究工作同质化现象严重,很多重要方面仍然存留空白,例如:


  1. 已开源数据主要集中在利用类似Self-Instruct方法合成的单轮指令微调数据,强调实用性(helpfulness)。合成数据所用的seed set相对随意,包含大量现有自然语言任务,难以满足现实世界多样化需求。

  2. 开源模型大多基于LLaMA微调,尚未出现针对中文优化的百亿级基座模型,通常只包含Supervised Fine-Tuning (SFT),对于有效利用人类反馈数据的研究与项目相当有限。

  3. 各类ChatGPT模型的评测及对比较为随意,尚缺完备的评测数据集与评估体系。


为解决上述问题,复旦大学自然语言处理团队最近开源了部分MOSS数据与模型权重,包括MOSS-002的全部对话数据、MOSS-003 的部分示例数据与插件增强对话数据,除实用性外,还涵盖忠实性与无害性数据。MOSS-003训练数据集由部署后的MOSS-002收集的用户数据构建,更符合真实世界人类意图分布。


此外,他们开源了拥有160亿参数的MOSS基座语言模型,该模型在 CodeGen基础上进行特定中文继续预训练,加入约100B中文 tokens,显著提升中文语言能力。后续,他们将开源完整版MOSS-003 SFT训练数据、偏好数据、偏好模型及经偏好训练的最终模型,还将开放部分脱敏的真实用户数据,用于评估类ChatGPT模型质量。





MOSS迭代过程
目前开源的版本为MOSS 003,而二月份邀测版本为MOSS 002,一月份内测版本为OpenChat 001。

OpenChat 001
ChatGPT的问世大大冲击了国内NLP的发展。于是他们设想尝试构造数据;从论文附录获取user prompt,用text-davinci-003 扩展 40 万对话。在16B基座上微调,OpenChat 001具备指令遵循及多轮能力,能理解中文。

MOSS 002
MOSS 002基于OpenChat001,加入300亿中文token及大量优质中英文对话数据。完成推理加速、部署和前后端工作后,于2月21日内测。

MOSS 003
发现真实中文世界的用户意图与OpenAI InstructGPT论文中给出的用户提示分布存在很大差异。因此,他们基于真实数据重新生成了约110万常规对话数据,并构建了约30万插件增强对话数据。这些数据将陆续完整开源。然而,由于模型参数量较小和自回归生成范式,MOSS仍可能产生误导性和有害内容,请大家精神甄别和使用。

值得一提的是MOSS 003除了模型和数据的迭代,还有一个重要升级——插件系统。以下为目前可选的一些插件:

  • Calculator:计算功能
  • Equation solver:求解方程
  • Text-to-image:文生图
  • Web search:联网搜索





推荐阅读

2023松山湖科学对话——《中国科学院院刊》编委会特别活>>

对话大脑>>

对话菲尔兹奖得主——和大师一起庆祝国际数学日>>

从羲和到夸父 —— 天文与神话的跨界对话>>

中国留德学者计算机学会&全德华人机电工程学会联合论坛:自动驾驶感知算法及系统设计>>

北京大学汤超院士:探索生命系统中的设计原理>>

埋下环境保护的种子:环境教育影响下的景观规划设计>>

打造高水平新时代中医药人才队伍-《关于加强新时代中医药人才工作的意见》政策解读>>

打造国际一流高影响力科技期刊 Bioactive Materials的发展与启示>>

升级全新智算平台,曙光打造算网中枢神经>>

编辑:吴良秀

蔻享学术 平台


蔻享学术平台,国内领先的一站式科学资源共享平台,依托国内外一流科研院所、高等院校和企业的科研力量,聚焦前沿科学,以优化科研创新环境、传播和服务科学、促进学科交叉融合为宗旨,打造优质学术资源的共享数据平台。

识别二维码,

下载 蔻享APP  查看最新资源数据。


点击阅读原文,查看更多精彩报告!

相关阅读

  • BBA也无法幸免,这些汽车品牌曾被黑客攻击

  • 3月22日,世界黑客大赛(Pwn2Own)在温哥华拉开序幕。2023 Pwn2Own为期三天,主办方为本届比赛总计准备了108万美元奖金,来自全球各个国家和地区的安全专家大展神通,纷纷向知名品牌发
  • 探析人工智能对网络安全的真正潜在影响

  • 要想人工智能和机器学习的水平“更上一层楼”,诸如破解最佳加密算法等重大挑战,仍需要进一步发展——有更大的规模和更复杂的符号模型。人工智能会变得更加智能吗?足以颠覆计算
  • 讯飞版ChatGPT突然开始内测!我们连夜一手实测

  • 编辑:明敏 萧箫 转自:量子位 | 公众号 QbitAI科大讯飞版ChatGPT产品,提前交卷了!就在前天,讯飞骤然向开发者提供了内测通道,取名为讯飞星火认知大模型对外开启内测。还有个神奇的
  • ChatGPT生态下,数据分析应该这么学!

  • 0基础入门·0费用即学网易数据分析是你学数据分析·不会后悔的选择问为什么选择网易?A1全面融入ChatGPT的应用课程全面融入ChatGPT,教你如何用ChatGPT高效进行:数据处理、数据

热门文章

  • “复活”半年后 京东拍拍二手杀入公益事业

  • 京东拍拍二手“复活”半年后,杀入公益事业,试图让企业捐的赠品、家庭闲置品变成实实在在的“爱心”。 把“闲置品”变爱心 6月12日,“益心一益·守护梦想每一步”2018年四
  • 美国对华2000亿关税清单,到底影响有多大?

  • 1 今天A股大跌,上证最大跌幅超过2%。直接导火索是美国证实计划对华2000亿美元产品加征25%关税。 听起来,2000亿美元数目巨大,我们来算笔账。 2000亿美元,按现在人民币汇率

最新文章