服务粉丝

我们一直在努力
当前位置:首页 > 财经 >

GPT-4 距离成为「天网」还有多远?

日期: 来源:科技灯下黑收集编辑:黄智健

作者 | 黄智健

来源 | APPSO(ID:appsolution)

在很多科幻电影里,我们经常会看到电影塑造出一个会自主思考、自动执行任务的 AI 系统或智能机器人的角色。

例如《2001:太空漫游》设计了一个超级智能计算机 HAL 9000 用于管理宇航员的任务;《终结者》塑造了自主学习人工智能系统天网,旨在控制美国的核武器和国防系统,以保证国家安全。

这些能够像人类一样思考和推理,还具有涵盖广泛的认知技能和能力的的 AI 系统被称作 AGI(Artificial General Intelligence)。

AGI 的智能不限于特定领域或任务,还要有推理、规划、解决问题、抽象思维、理解复杂思想、快速学习和经验学习能力等。

举个例子,Alpha GO 虽然围棋独步天下,但它不算 AGI,相比之下《机器人总动员》里的 Wall-E 则更符合人 AGI 的定义。

AGI 的概念在人工智能领域已经存在了几十年,许多研究人员一直在尝试通过开发新的算法、模型和方法来实现 AGI。我们距离实现 AGI 还有多远呢?

微软研究院最近发布的一篇论文指出,OpenAI 最新的大语言模型 GPT-4 已经有 AGI 的雏形。

GPT-4 的广泛能力与涵盖广泛领域的许多能力以及在广泛的任务上表现出的人类水平及以上的性能,使我们可以放心地说 GPT-4 是迈向 AGI 的重要一步。


人工智能的火花


微软研究院的这篇论文全文共 154 页,满满的全是给研究人员给 GPT-4 出的考题。

图片来自:YouTube@AI Explained

由于全文篇幅很长,YouTube 博主 AI Explained 对全文做了精选浓缩,让我们跟着他的视角来直观了解 GPT-4 的能力。

需要先说明的是,这些来自微软的研究人员在 GPT-4 的早期开发阶段就已经要接触到了该模型,并开展了大约 6 个月的实验。

他们使用的未做限制的开发版本,而不是现在做了安全限制处理的最终版本,因此文章提出的结论只是针对 GPT-4 原始模型。

让我们进入正题。文章指出,GPT-4 的一个重要新能力是可以在很少指示或者无示范的情况下正确使用工具,例如使用计算器,而这是 GPT-3.5 版本的 ChatGPT(以下简称旧版 ChatGPT)所不能做到的。

▲提示:有一条河流从左到右流淌、河的旁边建有金字塔的沙漠、屏幕底部有 4 个按钮,颜色分别为绿色、蓝色、棕色和红色

研究人员发现,GPT-4 可以与 Stable Diffusion 结合,根据文字提示输出一个细节丰富的图片,并且会根据文字提示来排列对象,提高了使用效率。

人类和其他动物的一个重要区别就在于,人类会发现并使用工具,如今 AI 也在朝着这个方向慢慢演化。

研究人员还让 GPT-4 去参加 LeetCode 上的软件工程师模拟考试。

取五次考试中最佳结果作为样本的话,GPT-4 在简单、中等和困难的三个等级考试中分别取得 86.4%、60%、14.3% 的成绩。

论文谦虚地说 GPT-4 的编码水平接近人类水平,那么人类表现怎么样呢?

LeetCode 的数据库显示人类在简单、中等和困难的三个等级考试的平均成绩分别为 72.2%、38.7%、7%,这还是剔除掉一题都答不上的人的数据。

可以说,就编程能力而言 GPT-4 已经比很多软件工程师还要优秀了。

GPT-4 不仅可以完成普通的编程工作,还能胜任复杂对 3D 游戏开发。

论文提到,GPT-4 在零样本的情况下用 JavaScript 在 HTML 生成了一个躲避障碍物的游戏 Demo。

只要在此基础上稍加优化,这个 Demo 完全可以变成一个游戏产品。而当研究人员用同样的提示测试旧版 ChatGPT,后者表示它做不到。

为了测试它的推理水平,研究人员拿了一道 2022 年国际数学奥林匹克竞赛的题目给它做。

由于 GPT-4 的数据库只更新到 2021 年(虽然是开发版本,但还是没有联网的),这道题的答案并不在它的数据库内,因此它要完全靠数学逻辑推理能力完成。

GPT-4 答出了一个正确的解题逻辑,但在具体的答案上出现了错误,研究人员表示这是基础计算上的错误(像极了考试时把乘法算成除法的人),而 ChatGPT 则只能生成一个逻辑不连贯的答案,水平差得远。

在问到一些像「一个游泳池可以放多少个高尔夫球」等很难回答的问题时,GPT-4 也能以合乎逻辑的方式去回答。

接着研究人员发现 GPT-4 可以调用其他应用的 API,来完成检索用户邮件、日历、坐标等操作,从而实现帮人订餐、订票、回复邮件等助理工作。

这一点在 OpenAI 最近公布的 ChatGPT 插件集功能上已经有所体现,GPT-4 模型能做的事绝对不只是文字生成这么简单,通过与其他应用 API 结合,它可以成为一个近似于系统的存在。

研究人员还发现了一个你很难察觉到的功能,那就是 GPT-4 可以建立人类的心智模型。

研究人员为它设立了一个场景,GPT-4 很好地分析了场景中人的心理过程以及相对应出现的行动。

也就是说,GPT-4 能够像人类一样解读人类的行为与心理的联系,而不仅是单纯看到动作本身,这是 AI 的一大进步。


One More Thing?


这篇论文共分为十个章节,共介绍了 GPT-4 的多模态能力(与视觉生成内容相关)、生成和理解代码能力、数学能力、与世界的交互能力、与人类的交互能力、判别力,以及 GPT-4 局限性、社会影响、未来方向。

全文以抽丝剥茧的方式全面解读了 GPT-4 的能力,一经发布便受到了广泛的关注,火出了圈。

有意思的是,有网友在论文的 LaTeX 源代码注释中发现作者隐藏掉了部分信息。

从注释来看 DV-3 应该是 Davinci 3(达芬奇 3)

例如 GPT-4 的内部名称实际为 DV-3,与此同时它也是这篇文章的「第三作者」,也许是考虑到隐私问题,这被作者有意给隐藏了起来。

网友们还发现作者也并不太清楚 GPT-4 的实际成本,并似乎错误地把 GPT-4 称为纯文本模型,而不是多模态模型。

论文中与毒性内容相关的部分在发布时也被删除,或许这是考虑到避免给 OpenAI 造成不必要的负面影响。

总的来说,如果你对 GPT-4 能做什么、目前还有什么限制,或者对 AI 的进展有浓厚兴趣,可以通过此文进一步了解目前最强大的大语言模型。

原文地址在此:https://arxiv.org/pdf/2303.12712.pdf

Enjoy it.

本文作者 黄智健,首发于公众号「APPSO」(ID:appsolution),这是一个让你手机更好用的专业媒体,欢迎点击下方卡片进行关注。



相关阅读

  • 这些公司点名要应届生:无忧传媒/快手/得物......

  • 论当代打工人找一份心仪的工作需要分几步第一步:吾日三省吾身,找到匹配度90%以上的岗位第二步:提炼技能关键词,准备专业度90%以上的简历第三步:打开招聘网站,筛选靠谱度90%以上的
  • 2023人工智能行业:ChatGPT的宏观视角(附下载)

  • ‍‍‍‍‍导语ChatGPT可与人类开展连续对话,ChatGPT可胜任报告起草、诗歌创作、代码撰写等复杂任务。通过“学习”和“理解”人类语言,标志着人工智能技术应用将进入快车道。
  • 梁启超心力论思想

  •   20世纪初,在维新派学术群体的提倡下,心力论作为一种社会思潮在当时的中国大为盛行。维新派总结戊戌变法的失败经验,认为失败的主因在于国民素质低下。维新派从其秉持的唯心
  • 书评 | 郑戈:《法律简史》是部奇书

  • 全文转载自“三联学术通讯”微信公众平台在当下的法学教育中,我们创造了很多词汇,却没能讲出多少道理。那么,我们还如何能让人们相信法学是一门讲道理的学问?道理显然不是靠专业
  • 如何评价一部手机的通信能力?

  • 文章来源:慧智微电子原文作者:彭自2007年iPhone初代发布以来,智能手机快速发展,屏幕、拍照、运算能力均得到大幅度提高,现在已经成为我们生活中不可缺少的移动智能中枢。不过在过
  • 越来越值钱的五种稀缺能力

  • 活出价值的人,都一开始就把时间和精力,用在能获得长期收益的地方。一个人越活越值钱,要修炼下面这些能力。01反思能力“如果每个人都能把反省提前几十年,便有一半的人可以让自己
  • AI群星闪耀时

  • 总是需要无数的光阴无谓地流逝,才能等到一个真正具有历史意义的时刻——一个人类群星闪耀的时刻出现……我把它们称为人类群星闪耀的时刻,因为在这个人类难以企及、不朽的时间

热门文章

  • “复活”半年后 京东拍拍二手杀入公益事业

  • 京东拍拍二手“复活”半年后,杀入公益事业,试图让企业捐的赠品、家庭闲置品变成实实在在的“爱心”。 把“闲置品”变爱心 6月12日,“益心一益·守护梦想每一步”2018年四

最新文章

  • GPT-4 距离成为「天网」还有多远?

  • 作者 | 黄智健来源 | APPSO(ID:appsolution)在很多科幻电影里,我们经常会看到电影塑造出一个会自主思考、自动执行任务的 AI 系统或智能机器人的角色。例如《2001:太空漫游》设
  • 新能源孔乙己归来,茅台魔咒显灵

  • 大家好,我是米斯特李,人称新能源孔乙己,英文名GOODWE(固德威),好久不见,分外想念。前段时间,中国移动连续上涨,市值超过2万亿,一度逼近茅台;而与之相反新能源的表现,则一言难尽。在小呆
  • 网络上热议的马云回国

  • 马云回国,确切地说,是在杭州被拍到,各路自媒体纷纷重磅解读,甚至连老胡都掺一脚。很多读者都在留言问这件事。我个人觉得,没必要过度解读。之前,马云在上海滩那次说话之后,大家都知
  • 今年这情况...大家还是多一手准备吧

  • 大家期待的经济繁荣,没有来。往年的金三银四,跳槽涨薪,也没有来。唯独来了个ChatGPT,却对大多数人来说,并不是什么好事。按它进化的速度,你我失业,可能就是一夜间的事。可能你不相
  • 听说,马云晒黑了!

  • 小韭本硕六年金融,机构行业研究员出身。公众号基于价值投资视角,围绕科技股、消费股、医药股、周期股、新能源股等重点行业及个股机会进行分析。追求稳定复利,控制回撤、减少账
  • 韩国房东们的骚操作

  • 1 给兄弟们写个八卦,讲讲韩国人是怎么炒房的,非常牛批!韩国炒房的最大倚仗和杠杆来自租房市场,我从源头开始介绍。2 假设你是一个韩国普通老百姓,视野有限、爱从众、厌恶贷款、喜