服务粉丝

我们一直在努力
当前位置:首页 > 财经 >

MIGA项目原作解读:基于生成式预训练语言模型T5的Text-to-SQL模型

日期: 来源:机器之心收集编辑:SOTA模型

越来越多的工作证明了预训练语言模型中蕴含着丰富的知识,针对不同的任务,用合适的训练方式来撬动预训练语言模型,能更好地提升模型的能力。在 Text-to-SQL 任务中,主流的方法主要是基于 SQL 语法树的 Encoder-Decoder 模型,可以确保生成的结果一定符合 SQL 语法,但是需要针对 SQL 语法进行特殊设计。最近也有一些关于 Text-to-SQL 的研究是基于生成式语言模型,可以有效地继承预训练语言模型的知识和能力。

在 2 月 7 日至 2 月 14 日于华盛顿举办的 AAAI 2023 会议上,广东外语外贸大学、网易互娱 AI Lab 和哥伦比亚大学的研究者在 AAAI 2023 发表的《MIGA: A Unified Multi-task Generation Framework for Conversational Text-to-SQL》中,为了降低对基于语法树的依赖,更好地挖掘预训练语言模型的能力,研究者在预训练 T5 模型的框架下,提出了一个两阶段的多任务 Text-to-SQL 模型 MIGA。

MIGA 分为两阶段的训练过程。在预训练阶段,MIGA 使用与 T5 相同的预训练范式,额外提出了三个与 Text-to-SQL 相关的辅助任务,从而更好地激发预训练语言模型在目标任务上的能力。在微调阶段,MIGA 针对多轮对话和 SQL 中容易存在的错误传递问题,在训练过程中对历史 SQL 进行扰动,使得生成当前轮次的 SQL 效果更加稳定。MIGA 模型在两个多轮对话 Text-to-SQL 公开数据集上表现优于目前最好的基于语法树的模型。

机器之心最新一期线上分享邀请到了广东外语外贸大学在读硕士付颖雯,为大家分享他们近期工作 MIGA。

分享主题:MIGA:基于生成式预训练语言模型T5的Text-to-SQL模型

分享嘉宾:付颖雯,广东外语外贸大学三年级硕士研究生,导师为蒋盛益教授,网易互娱 AI Lab 成员。目前主要研究方向为自然语言处理中的文本生成和低资源命名实体识别。

分享摘要:本次分享将讲解论文《MIGA: A Unified Multi-task Generation Framework for Conversational Text-to-SQL》。本次分享针对多轮对话 Text-to-SQL 任务,分析了现有方法的优劣并探究生成式预训练语言模型 T5 在该任务上的应用。此外,还将探讨可能的未来方向。

相关链接:

1)SOTA!模型平台项目主页链接:

https://sota.jiqizhixin.com/project/miga

2)论文链接:

https://arxiv.org/abs/2212.09278v1


加群看直播
直播间:关注机器之心机动组视频号,北京时间 3 月 6 日 19:00 开播。
交流群:本次直播设有 QA 环节,欢迎加入本次直播交流群探讨交流。

如群已超出人数限制,请添加机器之心小助手:syncedai2、syncedai3、syncedai4 或 syncedai5,备注「MIGA」即可加入。
如果你也有最新工作希望分享或提交你感兴趣的内容方向,随时告诉我们吧:https://jiqizhixin.mikecrm.com/fFruVd3

机器之心 · 机动组
机动组是机器之心发起的人工智能技术社区,聚焦于学术研究与技术实践主题内容,为社区用户带来技术线上公开课、学术分享、技术实践、走近顶尖实验室等系列内容。机动组也将不定期举办线下学术交流会与组织人才服务、产业技术对接等活动,欢迎所有 AI 领域技术从业者加入。

相关阅读

  • 中信建投 | ChatGPT技术演进及研究框架

  • ‍‍重要提示:通过本订阅号发布的观点和信息仅供中信建投证券股份有限公司(下称“中信建投”)客户中符合《证券期货投资者适当性管理办法》规定的机构类专业投资者参考。因本订
  • ChatGPT开放API,价格直接打1折

  • 转自:量子位 | 公众号 QbitAIChatGPT API,千呼万唤终于来了。不仅宣布开放,价格还直接打了个骨折:0.002美元/每1000 token,仅为此前GPT-3.5价格的1/10。言下之意:ChatGPT质优价廉,
  • 4位谷歌Al绘画大牛携手创业,天使估值7个亿

  • 来源丨量子位(ID:QbitAI)作者丨衡宇最近的谷歌像个大漏勺,这不,又有AIGC核心成员联手跑路咯!据悉,这回跟谷歌say byebye的,是文生图核心团队——AI绘画模型Imagen论文的四位核心作者
  • 自动驾驶新基建:AI大模型及智算中心正在兴起

  • 佐思汽研发布《2023年AI大模型及自动驾驶智算中心研究报告》。近年来,人工智能的快速发展推动了自动驾驶的进步,而人工智能的三驾马车分别为:数据、算法、算力,本报告主要聚焦研
  • 一图看完深度学习架构谱系

  • 点击图片,查看会议报名详情 完整图 记忆网络在记忆网络分支中,hunkim 标注了三篇重要论文:《记忆网络》、《端到端记忆网络》、《DMN:动态记忆网络》。神经编程是记忆网络的下
  • 写给初学Java的同学们

  • 耿老师教授Java程序20多年,多少有些教学经验和从学生那里学懂的什么叫不懂。这里写点文字,算是给初学者的一点参考建议吧。主要内容 五大模块学习介绍 后续主要课程

热门文章

  • “复活”半年后 京东拍拍二手杀入公益事业

  • 京东拍拍二手“复活”半年后,杀入公益事业,试图让企业捐的赠品、家庭闲置品变成实实在在的“爱心”。 把“闲置品”变爱心 6月12日,“益心一益·守护梦想每一步”2018年四

最新文章