服务粉丝

我们一直在努力
当前位置:首页 > 财经 >

AI训练了一个更小版本的自己

日期: 来源:蔻享学术收集编辑:KouShare




  异常高效的语境学习  


像OpenAI的GPT-3这样的大型语言模型,实则是种庞大的神经网络。它们可以生成类似人类创造的各种文本,从诗歌到编程代码,任何拥有语言结构的东西它们都能掌握。大量互联网数据被用于对这类机器学习模型进行训练,使其在接收一小段输入文本后,再预测接下来可能出现的文本。


但这并不是这些模型能做的全部。研究人员正在探索一种被称为“语境学习”的奇特现象。在语境学习中,一个大型语言模型可以在只看到几个例子后,就能“神奇地”学会完成一项它并没有专门为其接受过训练的任务。


通常情况下,像GPT-3这样的机器学习模型在应对新任务时,需要新的数据来进行重新的训练。在这种训练过程中,当模型在处理新的信息来学习新任务时,模型的参数也会得到更新。


在语境学习中,模型的参数并不会更新,所以看起来就像是模型在没有学习任何东西的情况下,就习得了一个新任务。这无疑是一种异常高效的学习现象,它意味着,只需为它提供一个输入,就能完成我们想要的东西。因此许多科学家认为有必要对此进行详细研究。


来自麻省理工学院、谷歌研究院和斯坦福大学的科学家正在努力揭示这背后的秘密。他们研究了与大型语言模型非常相似的模型,以了解它们是如何在不更新参数的情况下进行学习的。结果显示,在这些庞大的神经网络模型能中,可能隐藏着一些更小、更简单的线性模型



  模型中的模型  


在新研究中,研究人员认为首先要明确的是,语境学习者并不仅仅是在匹配先前见过的模式,而是真正在学习执行新任务


以GPT-3为例,它有着数千亿个参数,并通过阅读互联网上的大量文本进行训练,从百科文章到论坛帖子应有尽有。因此,当有人向这个模型展示一项新任务的例子时,它很可能已经见过了类似的东西。这时它并没有在学习如何执行新的任务,而是在重复它在训练期间看到的模式。


因此在实验中,他们使用了在此之前在任何地方都不可能看到的合成数据来作为这些模型的提示。结果发现,这些模型仍然可以仅从几个例子中进行学习。


接下来,他们猜想,也许在这些神经网络模型内部,存在更小的,可以通过训练完来成一个新任务机器学习模型


为了测试这种假说,团队使用了一种被称为转换器的神经网络模型,它具有与GPT-3相似的架构,但已被专门为语境学习进行训练。


通过探索这个转换器的架构,他们从理论上证明了转换器可以在隐藏态中写入一个线性模型。一个神经网络由许多层相互连接的节点组成,它们可以处理数据,隐藏态则是介于输入层和输出层之间的层。


通过对模型进行数学分析,研究人员发现这种线性模型写在了转换器模型的最早的某些层中。然后,转换器可以通过实施简单的学习算法来更新线性模型。


总结说来,这意味着在语境学习中,模型可以模拟并训练一个更小版本的自己。当需要完成一项新任务时,大模型可以仅仅使用已经包含在大型模型中的信息(固定的参数)来执行一个简单的学习算法,以达到训练那些更小的线性模型的目的



  继续探索隐藏层  


这篇论文揭示了现代语言大模型最显著的特性之一,也就是它们从输入的数据中学习的能力,这是理解语境学习背后机制的重要一步。


在这一理论工作的基础上,或许能够通过向神经网络添加两层,使转换器进行语境学习。


研究人员表示,在实现这一目标之前,仍有许多技术细节需要解决,但它有助于工程师创建能够完成新任务的模型,而不需要用新数据重新进行训练。这些结果也是了解模型如何学习更复杂任务的垫脚石,也能帮助研究人员为语言模型设计更好的训练方法,进一步提高性能。


简单来说,这些模型并不像想象的那样“蠢”。它们不单单是记住了某些任务,而是真的有能力学习新的任务。



#创作团队:

编译:Måka

排版:雯雯

#参考来源:

https://news.mit.edu/2023/large-language-models-in-context-learning-0207

#图片来源:

封面图&首图:Jose-Luis Olivares, MIT

本文经授权转载自微信公众号「原理」(ID:principia1687)


推荐阅读

AI4Science 和 ChatGPT,生物医药的契机?>>

“科技未来看青年”AI TIME 2022 年度嘉年华>>

一个被寄予厚望的粒子假说,被否决了>>

棋下得不好,怪空气?>>

在时空上卷绕的原子>>

2022全球人工智能技术大会(GAITC2022)>>

巧克力为什么这么丝滑?>>

地球的内核已经不转了?>>

AI未来·第四届北京高校人工智能学术论坛>>

魔角石墨烯的又一惊人发现>>


蔻享学术 平台


蔻享学术平台,国内领先的一站式科学资源共享平台,依托国内外一流科研院所、高等院校和企业的科研力量,聚焦前沿科学,以优化科研创新环境、传播和服务科学、促进学科交叉融合为宗旨,打造优质学术资源的共享数据平台。

识别二维码,

下载 蔻享APP  查看最新资源数据。


相关阅读

  • 百度文心一言发布会详细纪要

  • 产业调研系列李彦宏(创始人):其实百度在过去的十几年当中,一直在AI的研发上坚持投入。文心大模型第一个版本2019年就发布了,此后每年都要发布一个新版本。所以从这个意义上说,文心
  • Open AI发布GPT-4,超预期还是低于预期?

  • 行业更新系列北京时间3月15日凌晨,Open AI发布ChatGPT-4。ChatGPT Plus的订阅者可以付费获得具有使用上限的GPT-4访问权限。在发布中,GPT-4展现了更强的能力,如:创造力:GPT-4比此
  • 实测文心一言,马保国很满意

  • 文/郝圆在全世界人民都仍处于GPT-4的震惊中时,百度终于发布了自己的同类产品——文心一言。蓝鲸财经记者在第一时间拿到了内测名额,为大家实测这款新一代大语言模型、生成式AI
  • 百度“文心一言”,就这?

  • 将深燃设为“星标⭐”第一时间收到文章更新深燃(shenrancaijing)原创作者 | 王敏编辑 | 金玙璠“冲刺”一个多月后,百度文心一言终于来了,但刚出道就遭到群嘲。 3月16日下午,百度
  • 百度股价逆风翻盘 文心一言背后的荣光与野望

  • 文心一言正式开放邀请测试近8小时后,百度(BIDU.O)股价迎来了逆风翻盘。3月16日晚,在以3.57%的跌幅水平低开后15分钟内,百度股价迅速逼平涨跌临界线。经过约1小时的多空博弈后,最终

热门文章

  • “复活”半年后 京东拍拍二手杀入公益事业

  • 京东拍拍二手“复活”半年后,杀入公益事业,试图让企业捐的赠品、家庭闲置品变成实实在在的“爱心”。 把“闲置品”变爱心 6月12日,“益心一益·守护梦想每一步”2018年四

最新文章

  • 【视频回放】【CC讲坛】神奇的国宝级小麦基因

  • 报告名称:神奇的国宝级小麦基因报告嘉宾:付道林视频通道蔻享学术识别二维码,即可观看视频。 小麦已经被驯化了一万年,成为人类三大主粮作物之一。袁隆平的超级杂交水稻亩产已经
  • AI训练了一个更小版本的自己

  • 异常高效的语境学习 像OpenAI的GPT-3这样的大型语言模型,实则是种庞大的神经网络。它们可以生成类似人类创造的各种文本,从诗歌到编程代码,任何拥有语言结构的东西它们都能
  • 《狂飙》之后,张译新剧太敢拍了!

  • 开年爆款《狂飙》完结之后,不少喜欢犯罪悬疑题材的朋友们一下子就“空虚”了。别急,张译又出手了。白银案+南大碎尸案居然被搬上了荧幕,开篇即高能,画面尺度极大!《他是谁》 I 20
  • 视频:最吸金女掌门“苏妈”的开挂人生

  • 她靠弹得一手好琴,差点就读比伯克利还顶级的朱丽叶音乐学院。好在她是生来爱冒险的天蝎座,听说电气工程最难学,果断走上了工科女博士之路。她就是AMD的CEO“苏妈”苏姿丰,翻开她