服务粉丝

我们一直在努力
当前位置:首页 > 科技 >

Transformer六周年:在它之后世界地覆天翻

日期: 来源:品玩收集编辑:品玩

理解了人类的语言,就理解了世界。

一直以来,人工智能领域的学者和工程师们都试图让机器学习人类的语言和说话方式,但进展始终不大。

因为人类的语言太复杂,太多样,而组成它背后的机制,往往又充满着不可名状的规律。

过去人们在自然语言处理中多采用 RNN 循环神经网络,它十分类似于人类逻辑上对语言的理解——强调上下文顺序、前后文逻辑关系。

但是这种顺序方式让 RNN 无法实现并行计算,也就是说,它的速度十分缓慢,而规模也很难扩大。

直到 2017 年 6 月 12 日,一篇名为Attention is All You Need的论文被提交到预印论文平台 arXiv 上。

一切从此改变。

Transformer 的提出直接导致导致了现在生成式 AI 风暴。机器好像在一瞬间就学会了如何与人类自如交流。

在Transformer提出前,人们讨论的是如何让智能音箱听懂你的提问,而Transformer之后,人们讨论的重点变成了该如何防范AGI 通用智能对人类造成的危险。

Attention is All You Need这篇论文的重要性可见一斑,刚刚过去的 12 号正是它六周岁生日。

Transformer 这个名字据说来自论文联合作者之一的Llion Jones,原因无它,因为 attention (注意力)这个词听上去实在是有点不酷。

Llion Jones 也是目前八个论文联合作者中唯一一个还在谷歌上班的人。剩下的七个人都纷纷离职创业。最有名的大概是Character AI,创始人是论文作者之一的Noam Shazeer,他之前在谷歌工作了 20 年,负责构建了 LaMDA。

那么Transformer 究竟有什么点石成金的魔力呢?我们尽量用通俗易懂的话来解释。

Transformer 彻底抛弃了前面提到的 RNN 循环神经网络这套逻辑,它完全由自注意力机制组成。

大家都有过这样的经验,打乱个一子句中字词序顺的多很时候不并响影对你句子的解理。比如上面这句。

这是因为人脑在处理信息时会区分权重,也就是说,我们的注意力总是被最重要的东西吸引走,次要的细节则被忽略。

Transformer 模仿了这一点,它能够自动学习输入的序列中不同位置之间的依赖关系并计算其相关性(而不是对整个输入进行编码)。这让针对序列的建模变得更加容易和精准。

在深度学习中引入这种机制,产生了两个明显好处。

一方面,并行计算得以实现,基于Transformer架构的模型可以更好地利用 GPU 进行加速。由此,Transformer为预训练模型的兴起奠定了基础,随着模型的规模越来越大,神经网络开始出现所谓“智能涌现”,这正是人们认为像 GPT 这样的大模型打开了 AGI 通用人工智能大门的原因。

另一方面,尽管最开始Transformer的提出是被用来解决自然语言,更准确地说,机器翻译问题,但很快人们就发现,这种注意力机制可以推广到更多领域——比如语音识别和计算机视觉。基于Transformer的深度学习方法实际上适用于任何序列——无论是语言还是图像,在机器眼中它们不过是一个个带规律的向量。

在这两种优点的共同作用下,人工智能领域迎来了前所未有的爆发,后面的故事我们都知道了。

下面是关于Transformer的几个 fun facts。前面三个来自英伟达 AI 科学家 Jim Fan 庆祝Transformer架构被提出六周年的推文。

1、注意力机制不是Transformer提出的。

注意力机制是深度学习三巨头之一的Yoshua Bengio于 2014 年提出的。这篇名为 Neural Machine Translation by Jointly Learning to Align and Translate 的论文中首次提出了注意力机制。堪称自然语言处理里程碑级的论文。在那之后许多人都投身于对注意力机制的研究,但直到Transformer论文的出现大家才明白——相对别的因素而言,只有注意力机制本身才是重要的。

2、Transformer和注意力机制最初都只为了解决机器翻译问题。

未来人们回溯 AGI 的起源,说不定要从谷歌翻译开始。尽管注意力机制几乎可以用在深度学习的所有领域,但一开始不管是Yoshua Bengio的论文还是Transformer架构,都单纯是为了提高机器翻译的效果。

3、Transformer一开始并未引人注意,至少对NeurIPS来说如此。

NeurIPS 2017上一共有 600 多篇论文被接受,Transformer 是其中之一,但也仅此而已了。讽刺的是当年NeurIPS上的三篇最佳论文联合起来的引用次数只有五百多次。

4、OpenAI 在Transformer发布的第二天就 all in 。

虽然很多人一开始并没有意识到Transformer的威力,但这其中显然不包括 OpenAI。他们在Transformer 甫一发布就迅速意识到了这意味着什么,并迅速决定完全投入其中。

实际上,GPT 中的 T 正是Transformer。

5、Transformer几乎立刻取代了 LSTM 的地位。

在Transformer提出之前,自然语言处理使用广泛的是名叫长短期记忆网络 LSTM 的序列生成模型,它的一大缺陷是对输入内容的先后顺序敏感,因此无法大规模使用并行网络计算。

然而在Transformer被提出之前,许多人都认为 LSTM 将在很长一段时间内容主导NLP的发展。


相关阅读

  • 军校毕业学员论文致谢,哪条打动了你?

  • 又到了不得不说再见的毕业季四年前矢志强军的梦想将他们召集在一起四年后他们即将奔赴战位时光匆匆在军校毕业学员们敲击毕业论文每一个字时“致谢”迎来终章“致谢”通常被
  • 对话周伯文

  • Connect the dots2014年,Yoshua Bengio和他在蒙特利尔大学的同事们正在研究如何把编码器-解码器用在机器翻译领域。这篇即将成为机器学习研究里程碑之一的论文,在当时有些卡壳
  • 让老师“吃惊”!中国科大学生这篇“致谢”火了

  • “彭蠡阳岸,庐州故郡。寰宇学府,天下英才。南北千里赴学,寒来暑往……念故往,曾壮志豪言,更慕张文远千里止啼威震江左……”这并不是一篇普通的文言文,而是中国科大大四学生林业轩

热门文章

  • 解码“新IT”的5个特征和3大价值

  • 党的二十大报告提出,要加快发展数字经济,促进数字经济和实体经济深度融合,打造具有国际竞争力的数字产业集群。在数字经济与实体经济深度融合的产业浪潮中,以智能设备、边缘计算
  • OPPO k1的低价高配真实么?网友:不看不知道

  • 近日OPPO一款新机OPPO k1,摒弃了高价低配,就连自家老大哥r17都要怼一下。更是放弃了请代言人,以往的OPPO手机还没出来,各路流量小生,花样美男的代言就先来了。还有线下销售人员的
  • 一招教你手机无限制成为一台新设备

  • 大家平时用手机去注册app,肯定会遇到检测设备异常,交易关闭,等问题 这个都是手机已经不止1-2次注册过此app,不断更换手机仅是一个暂时的方法,却不是长久之计,手机总归会用完
  • 从零开始如何开网店

  • 随着互联网的高速发展,人们的生活发生了翻天覆地的变化,生活节奏越来越快,网购已经成为家家户户生活中离不开的一种购物方式了。网购的发展使得越来越多的人想要涉足电商事业,那

最新文章

  • Transformer六周年:在它之后世界地覆天翻

  • 理解了人类的语言,就理解了世界。一直以来,人工智能领域的学者和工程师们都试图让机器学习人类的语言和说话方式,但进展始终不大。因为人类的语言太复杂,太多样,而组成它背后的机
  • 2023年教师资格考试(面试)结果可以查询了

  • 2023年上半年中小学教师资格考试(面试)结果6月14日上午10点公布。参加此次面试的考生快来国务院客户端小程序查成绩!查询方式进入国务院客户端小程序中小学教师资格考试成绩查
  • OpenAI重磅更新,又变强了!

  • 6月13日OpenAI官网突然发布了重磅的ChatGPT最新能力更新。重点如下:1、新功能:在Chat Completions API中添加了新的函数调用能力,能让模型在需要的时候调用函数并生成对应的JSO