服务粉丝

我们一直在努力
当前位置:首页 > 财经 >

「春花秋月何时了」里面编码着「国恨家仇」

日期: 来源:王建硕收集编辑:王建硕

在我的想象中,未来机器人和机器人之间应该用自然语言沟通,而不是机器语言(无论是代码,还是协议,或者二进制的某种编码)。
自然语言会不会机器语言效率更低呢?
恰恰相反,自然语言是一种比机器语言高效,准确得多的语言,越古老,语料越丰富的语言,就越高效,越准确。
这个结论非常反直觉,我来解释一下。
以 SMTP (简单邮件传输协议)为例,它定义了大约十几个命令,比如HELO,OLEH,FROM,RCPT,DATA 等等。如果用二进制表达,2的4次方差不多就够了。很简单,很高效对吗?
如果是用自然语言表达,可能是「你好」,「Hola」,或者「こんにちわ」或者 「م١ليب」。这些文字,通过一个类似于 GPT-3 一样的大语言模型,会被翻译成一个 1536 维的向量,也就是 1536 个浮点数字。如果一个浮点数用 4 个字节表达,那就 2 的 32 次方的 1536 次方的信息,或者等于2 的 49152 次方这么一个数字。这个数字大得让我窒息。这个数字有多大,我不知大。至少我知道,我们现在已知的整个世界的原子数是 2 的 78 次方,多一位,就是 2 的 79 次方(就是两倍于宇宙的原子数)就已经让我无法想象了,不要说从 78 次方变成 49152 次方。
而传输的自然语言本身有多少信息量呢?你好用 Unicode 编码也就是四个字符,2 的32 次方而已。
也就是是说,大语言模型可以把任何一个自然语言的词或者句子「扩展」成远远远远大于这个词本身的信息量。‍‍‍‍‍‍‍‍‍‍‍‍‍‍
也就是说,4 个字节的信息进,6000 多个字节出。这不符合信息守恒定律呀。这是怎么做大的呢?
秘密就在于:人类的自然语言的历史上所有的语料,就是一本「密码本」。这个密码本被说的人和听的人共享。
举例子,如果我们有一本厚得不得了的书,几百亿页,包含了人类所有重要的知识。要是相隔几千公里的两个城市都有这个密码本,我们想把《三体》这一本书传递到另外一个城市,我们不用传递《三体》本身的 100 万字,而需要告诉对方一个索引,可能就是一个很小很小的数字,对方就可以从中根据密码本找到这本书。
人类历史上的所有的自然语言加和,就是这么一本密码本。我们只要说一句「春花秋月何时了」,不用加任何其他的信息,国恨家仇,幽怨的囚禁生活等等这些信息,不需要传递,就已经在每个懂这门语言的人的心里传递过去了。
两个人刚刚见面,表达一件事情需要说很多话;但是当两个人在一起合作了 20 年,可能三言两语,对方就心领神会。当两个人有共同的知识的情况下,可以通过传递更少的信息,而从共享的数据中获取多得多的信息。‍‍‍‍‍‍‍‍‍‍‍‍‍
我们回到 SMTP 的例子,我们看似几个命令非常简单,但是要是表达极为复杂的内容,根本无法用这几个命令组合完成。比如一个机器人决定礼貌的问候对方 ,而他只有 HELO 这一个指令,他将毫无办法。但是未来,一个机器人和另外一个机器人的问候语,可以是「你好」,可以是「吃了吗?」,可以是「嗨」,可以是「你丫的跑哪去了?」,这几字节的信息能够传递的丰富的内涵,只要看一下汗牛充栋的小说,文献,就可以当作从这几句里面扩充信息的丰富的素材。
「苹果」这两个字,如果让不懂自然语言的人看起来就是两个字的信息。但是大语言模型眼里面,这两个字里面包含了「甜」,包含了「圆」,有「红」,也有「种子」,有「邪恶」的感觉,也有「七个小矮人」环绕,有「图灵」的不甘心。。。。你只要想想一下 2 的将近 50000 次方里面能放多少信息,苹果这两个字里面在大模型里面就有多少信息。
所以,用自然语言作为机器人和机器人之间的交流语言,不但不会低效,反而是无法想象的高效。就如同人类的一个眼神,就传递了无数的信息。这些信息其实不仅仅是由信息本身传递的,而是在人类的基因和文化的浩瀚的结构中包含的,眼神仅仅是一个索引。

我进一步推论,历史越长,内容越浩瀚的语言,传递的效率越高。比如中文,就比毛利语更能准确的传递信息,因为中文的语料,有几千年的积累,而毛利语我们能找到的文献,相比来说小得多。或许,英语,中文这样的语言是最适合机器人交流的语言。‍‍‍‍‍

注:后台回复「文心一言」可以通过「文心一言智能号」直接开始体验。‍‍‍‍‍‍‍‍‍

相关阅读

  • 期刊动态 | 《外语教学》2023年第1期目录

  • 本刊声明:本刊从未授权任何机构或个人进行论文代发业务,不会以任何形式向作者收取任何费用,请各位作者读者提高警惕,谨防受骗。语言学与语言研究● 语法隐喻的话语建构功能探索
  • ChatGPT-4震撼来袭 我们该如何看待AI越来越强大

  • 3月15日,凌晨,OpenAI发布大型多模式模型GPT-4。据OpenAI官方介绍,GPT-4是一个大型的多模式模型,可以接受图像和文本输入,输出文本,在各种专业和学术基准上表现出人类水平的性能。

热门文章

  • “复活”半年后 京东拍拍二手杀入公益事业

  • 京东拍拍二手“复活”半年后,杀入公益事业,试图让企业捐的赠品、家庭闲置品变成实实在在的“爱心”。 把“闲置品”变爱心 6月12日,“益心一益·守护梦想每一步”2018年四

最新文章

  • 「春花秋月何时了」里面编码着「国恨家仇」

  • 在我的想象中,未来机器人和机器人之间应该用自然语言沟通,而不是机器语言(无论是代码,还是协议,或者二进制的某种编码)。自然语言会不会机器语言效率更低呢?恰恰相反,自然语言是一种
  • SeeDAO|Uniswap 社区概要

  • ​摘要:本篇是 Bethany 关于 Web3 项目如何进行去中心化社区建设的 12 个独立故事中的第 9 篇;本文中,Bethany 对 Uniswap 进行了综合的介绍,包括其起源历史,发展现状以及其之所
  • 未来如何影响过去?

  • 2022年,诺贝尔物理学奖被授予了著名的量子物理学实验研究。三位得主阿兰·阿斯佩(Alain Aspect)、约翰·克劳泽(John Clauser)和安东·塞林格(Anton Zeilinger)各自利用纠缠量子态
  • 魅族 20 Pro 正面渲染图曝光 边框极窄

  • 星纪魅族集团将于 3 月 30 日 19:30 举行“魅族 ∞ 领克无界生态发布会”届时魅族 20 系列、Flyme 10将亮相此前魅族 20 系列新机的渲染图已经曝光不过大多是背面照今天博