服务粉丝

我们一直在努力
当前位置:首页 > 科技 >

对话“顶流”ChatGPT:你的“智慧”从何而来?

日期: 来源:浙江日报收集编辑:浙江日报

浙江新闻客户端见习记者 涂佳煜 林晓晖

从2022年底开始,来自全球各地的人都不约而同地绞尽脑汁,用各种刁钻的要求“调教”着一款人工智能——ChatGPT。

AI一一应战,给出了史无前例的惊人表现,短短几个月间,在全球圈粉无数。

网友与ChatGPT的花式互动。图片来自网络

ChatGPT搞定了论文、代码、报告,还能进行诗歌、剧本、小说等“文学创作”。这番大显身手,引起了一场轩然大波:比尔盖茨说它的出现不亚于互联网的诞生;马斯克说我们离“强大到危险”的AI不远了;一大批预言家站了出来,大胆预测码农、分析师、新闻编辑等从业者即将失业……ChatGPT俨然成为赛博空间的顶流,越来越多的人对它的真面貌产生了深深的好奇。

ChatGPT的“智慧”从哪里来?它真的已经无所不能了吗?今天,记者带着疑问,和ChatGPT聊了聊它的前世今生……

一个对话大师的诞生:“学习人类语言并不难”

与ChatGPT对谈两回,记者不禁惊呼,这一次,AI终于“听得懂人话”了。

为什么这么说?我们可以尝试同时问ChatGPT和苹果的智能手机助手siri一个前阵子所有人都特别关心的问题:“阳”了之后该注意什么?

这时,siri会因为无法理解问题,直接为我们到网上搜索已有的答案,但是ChatGPT却像一个真正的健康专家一样,合成出了像模像样的回答,而这一解答并非是网络上已经存在的:

可以看出,ChatGPT似乎能够明白“阳”的含义,它意味着人的身体健康出现异常。并且,ChatGPT还能根据主题信息,富有逻辑、通顺连贯地阐述建议,最后用总结性的话语收束,可谓一个真正的“对话大师”。

洞悉人类的语言,这个AI是怎么做到的?ChatGPT颇为“谦虚”地告诉记者:“学习人类语言并不困难,而是一个自然的过程。”

大量的文本数据训练是AI掌握语言的关键,ChatGPT真正做到了“读书破万卷,下笔如有神”。相关资料显示,ChatGPT的训练使用了约45TB的数据,其中包含了多达近1万亿个单词的文本内容,约等于1351万本牛津词典。截止到2021年的海量知识全部被它收入知识库,这也解释了为什么它能“与时俱进”地解读出“阳”的含义。

在“数据是燃料、人工智能是引擎”的时代,海量数据训练必须依靠规模巨大的神经网络模型。据了解,ChatGPT的前身GPT-3,是一个拥有1750亿个参数的大模型。“如果将这个模型的参数全部打印在A4纸张上,叠加起来将超过上海中心大厦632米的高度。”浙江大学人工智能研究所所长吴飞告诉记者。

而更重要的,是让AI在海量的文本中“读出门道”。

我们知道,语言的含义很大程度上受制于它所处的上下文语境,也就是说,同一个词所承载的语义可能会因为它在句子中出现的顺序不同,以及它之前或之后的其他单词的不同而发生改变,这就要求AI在理解一个单词时必须将它的上下文纳入考量。

比如,“阳”的意思是“阳光”还是“阳性”,需要AI通过这一用法与其他词语的关联来判断,在生成文本时,它才能选择适当的词语含义进行表达。

“在自然语言处理中,单词会预先被转化为一系列固定维度的词向量,向量和向量之间夹角越小,就意味着词语之间的相似度越高。”吴飞告诉记者,“训练时,AI会不断地在句子中‘挖去’一个单词,根据剩下单词的上下文来填空,即预测最合适的‘填空词’出现的概率,从而将单词向量表达得更加准确,我们称这一过程为‘自监督学习’。” 

吴飞表示,这种训练方法已经被广泛地应用于基于深度学习的自然语言处理任务中,不过,GPT家族使用的Transformer模型在此基础上进行了更深入的工程创新。

首先是引入“自注意机制”,这使得模型能够在更广阔的上下文语境中计算出词句间的相关性,而不仅局限于有限的、相邻的单词。同时,Transformer模型还能并行处理文本中的所有单词,从“逐字逐句”串行处理跃进到并行处理,模型训练的速度和效率得到了极大的提高。

而从GPT1-3代到ChatGPT,AI的语言能力能够越来越强大,还离不开“人类反馈强化学习”(RLHF)的“调教”。

从ChatGPT的开发商OpenAI官网公布的流程图中,我们可以大致了解到ChatGPT通过人类反馈强化学习“自我完善”的过程。通俗来说,就是由人类专家对AI输出的结果进行标注,训练出一个“奖励函数”,该函数能够进一步对计算结果进行评估打分,促使AI不断调整参数权重,逐步生成更加准确、符合人类语言习惯与价值偏好的回答。

OpenAI官网对于ChatGPT人类反馈强化学习过程的描述。图片来自OpenAI

而我们在与ChatGPT对话的过程中,也无时不刻在为它提供大量的语料资源,帮助它通过用户的反馈改进特定对话的技巧。

ChatGPT的自我考古:关于“祖先”,还有庞大的“聊天机器人”家族

据 ChatGPT“回忆”,它的“祖先”可以追溯到1950年代的机器翻译和语言识别技术。当时,人工智能研究者开始研究如何使用计算机识别和生成人类语言。

作为AI界的新锐势力,GPT背后还有个庞大的“聊天机器人家族”。

第一代代表性人物Eliza,是麻省理工学院人工智能实验室的计算机科学家约瑟夫·维森鲍姆(Joseph Weizenbaum)开发的历史上第一个聊天机器人。Eliza的人设是个“心理医生”,能在心理治疗情境下,按照预先设定的模式组织语句,与真人进行对话。

Eliza和用户的聊天界面。图片来自网络

它和人类的“沟通”基于模式匹配和对话转化,也就是通过对用户输入的语句进行重新组织和解释,变成全新字句组合,这让它自己看起来像是一位耐心的倾听者,似乎真的在安抚患者的情绪,实际上这位医生并不知道自己在说什么。

如聊天界面所显示,当用户告诉她自己因为男朋友的事情而困扰后,显然Eliza没有听明白,仍然在重复她的问题,以至于回答显得有些“敷衍”。

第二代代表性人物A.L.I.C.E. 由美国人工智能大师理查德·华莱士(Richard S. Wallace)设计,人工智能标记语言(Artificial Linguistic Internet Computer Entity)才是它的全名。

比起Eliza,A.L.I.C.E.具有更强的自然语言理解能力,可以更好地理解用户的询问;同时,Alice 在受训时使用了大量的文本数据,有更丰富的知识储备;能够生成更流畅、更有意义的回答。

A.L.I.C.E.和用户的聊天界面。图片来自网络

第三代的Watson是IBM公司开发的一种聊天机器人,可以通过文字、语音和视频与用户进行交流,并回答用户的问题。

IBM Watson 支持多种语言,并且可以自由切换,更重要的是它的多模态数据分析功能,可以分析不同类型的数据,例如文本、语音、图像和视频等。

在自然语言处理基础上,Watson也通过基于机器学习的方法实现对话。它能更准确地理解用户的询问并回答问题,开始不再是简单的问答,也可以帮助进行如医学咨询、金融分析等。

最后,便是今天的GPT大家族。

GPT也经历了从GPT-1到GPT-3的迭代,逐步升级后,聊天机器人拥有了更大的模型规模、更丰富的训练数据、更强的自然语言理解能力和更多的多任务学习能力。

ChatGPT则是GPT-3的升级产品,自称为“一个训练有素的语言模型”。它基于Transformer模型,比起之前的聊天机器人,具有较强的自然语言生成能力,可以生成与人类语言非常相似的文本。

和人工智能聊未来:局限和可能性都在哪儿?

回顾人工智能发展史上“聊天机器人”的一次次迭代,ChatGPT的横空出世无疑是一块崭新的里程碑。不过,当记者问起它的局限性,ChatGPT也大方承认,自己并非无所不能。

如果我们仔细分析ChatGPT的对一些问题的回答,可能会发现,它有时也难免“一本正经地胡说八道”。

财通证券5日发布了一篇题为《提高外在美,增强内在自信——医疗美容革命》的试验性研报,它由ChatGPT写作生成。表面看来,这已称得上是一篇框架完善,观点清晰的报告,但在后期修改中,分析师还是发现了文中诸如“标点和术语方面存在明显错误”、“无法得知引用数据来源及可靠性”、“部分复杂语句翻译后表意不清晰”等问题。

再比如,记者请它计算一道简单的鸡兔同笼推理问题,ChatGPT为此尝试了两种方法,最后言之凿凿地给出了一个错误的答案。

OpenAI也指出,ChatGPT有时会写出一些看起来很有道理,但实则不正确或者毫无意义的话语,这是因为数据驱动的机器学习判断语义联系的逻辑是“共生则关联”,也就是只知其然,而不知其所以然。此外,它还可能被人类的参与所“误导”,比如,由于训练者可能更喜欢看起来更全面、篇幅更长的回答,就会导致ChatGPT过度啰嗦,重复多遍没有意义的空话。

言语偏见是它面临的另一大挑战。OpenAI表示,尽管他们已做出不少努力让ChatGPT拒绝不恰当的请求,但它有时仍会对有害的指令作出反应,或者表达出存在偏见的言语。

“ChatGPT是大数据、大模型和大算力的工程性整合,以机器智能实现了统计关联的涌现。”吴飞表示,ChatGPT是一个现象级创新产品,但它本质上仍是以深度学习为代表的人工智能技术长期发展、积累的结果,距离真正模拟人类的思维还非常遥远。

卷积神经网络之父杨立昆(Yann LeCun)也在推特上表示,“ChatGPT 和其他大语言模型并不是凭空而来的,而是不同人数十年贡献的结果”、“在通向与人类相仿的通用型人工智能的道路上,大语言模型只是一条小岔路”。

尽管如此,在吴飞看来,我们必须肯定ChatGPT在搜索引擎、聊天工具等应用场景上实现的重要突破。今后,在一些内容生产工作中,ChatGPT或将成为人类的得力助手,解放一批生产力,促使更多人将更多精力投入到原创性、创新性的工作中去。

“我们正从传统的以物理世界-人类社会为主的二元空间逐步进入物理世界-人类社会-信息空间所构成的三元空间。未来将是人和人工智能共同进化的时代。”中国工程院院士潘云鹤教授在为吴飞撰写的科普读物《走进人工智能》作序言时提到。

更重要的是,ChatGPT “一石激起千层浪”,在全球舆论场上引发了一场大讨论,这种探讨本身,就足以说明大众对人工智能赋能社会的强烈愿望。

“现在的情景,让我想起2016年Alphago击败李世石的时候,突然之间,社会各界也如今天一样热烈地讨论起了人工智能。令人高兴的是,中国政府在那时高瞻远瞩地推动了2017年国务院《新一代人工智能发展规划》的出台。”

人工智能与推动人类进入工业革命时代的蒸汽机一样,也是一项通用使能技术。美国历史学家斯塔夫里阿诺斯在《全球通史》一书中曾赞誉“蒸汽机的历史意义无论怎样夸大都不过”,而人工智能对于人类未来的意义也是如此。

让世界看到人工智能的巨大潜力,让更多人投身于技术创新与突破,让人工智能这一通用战略性技术如水和电一样进入我们的生活,这或许正是一个现象级产品的意义所在。

最后,让我们跟随ChatGPT创作的一首小诗,一窥人工智能的广阔未来。


相关阅读

  • 快评|地震废墟上的生命奇迹,靠人类共同书写

  • 浙江新闻客户端评论员 逯海涛当地时间2023年2月8日傍晚,土耳其伊斯肯德伦,公羊救援队赶到重灾区救援现场,利用多种探测仪进行搜寻。CFP供图经过艰苦紧张的搜救,好消息接连从土耳
  • 科学家已发布人类与人工智能共生原则!

  • 写在前面《流浪地球2》中的MOSS引发了“人工智能是服务人类、还是毁灭人类”的讨论,让我们看到人工智能与人类共生的一种可能性。没人知道影片里的人类世界是否存在一种共识,
  • 赶紧收藏|ChatGPT注册教程(完整指南)

  • 最近几天ChatGPT实在是太火了,不光是2个月突破1亿用户,仅是在对话中展现出的能力就惊呆了大多数人,它能够通过学习和理解人类的语言来进行对话,上下文互动,写长篇文章,甚至还能写
  • ChatGPT能代做气象服务?记者和TA聊了聊!

  • 近期,ChatGPT在全球爆火!“ChatGPT上线2个月活跃用户破亿”“ChatGPT能写论文”“ChatGPT会不会使底层程序员失业”等多个话题接连登上微博热搜榜。中新社、澎湃新闻等多家媒

热门文章

  • OPPO k1的低价高配真实么?网友:不看不知道

  • 近日OPPO一款新机OPPO k1,摒弃了高价低配,就连自家老大哥r17都要怼一下。更是放弃了请代言人,以往的OPPO手机还没出来,各路流量小生,花样美男的代言就先来了。还有线下销售人员的
  • 一招教你手机无限制成为一台新设备

  • 大家平时用手机去注册app,肯定会遇到检测设备异常,交易关闭,等问题 这个都是手机已经不止1-2次注册过此app,不断更换手机仅是一个暂时的方法,却不是长久之计,手机总归会用完
  • 从零开始如何开网店

  • 随着互联网的高速发展,人们的生活发生了翻天覆地的变化,生活节奏越来越快,网购已经成为家家户户生活中离不开的一种购物方式了。网购的发展使得越来越多的人想要涉足电商事业,那

最新文章

  • 对话“顶流”ChatGPT:你的“智慧”从何而来?

  • 浙江新闻客户端见习记者 涂佳煜 林晓晖从2022年底开始,来自全球各地的人都不约而同地绞尽脑汁,用各种刁钻的要求“调教”着一款人工智能——ChatGPT。AI一一应战,给出了史无前
  • 上帝给你的“吻痕”,隐含着什么“健康情报”?

  • 你,身上有胎记吗?赶紧撸起袖子看一哈!很多宝宝生下来都带有胎记,红的、黑的、蓝的......今天跟大家聊一聊“红胎记”↓↓↓鲜红斑痣和鲑鱼斑什么是鲜红斑痣?鲜红斑痣实际上是一种
  • 最新指引发布!新学期深圳中小学体育课这样上

  • 为确保体育与健康学科教学和校园体育活动的正常开展,坚持“健康第一”和“安全至上”的原则,充分发挥体育的教育功能,帮助学生通过科学的体育锻炼“享受乐趣、增强体质、健全人
  • 【岭南诗人】梁家天 诗词选

  • 云帆诗友会,诗歌高地,心灵家园。荟萃天下诗友,弘扬传统文化。推介名家精品,展示新人新作。凭家国情怀,观千秋气象;以飞扬笔墨,写诗意生活。合众力,挂云帆,济沧海……梁家天 诗词选作
  • 市委办传达学习贯彻恩平市委十四届四次全会精神

  • 2月9日,市委办召开全体干部大会传达学习贯彻恩平市委十四届四次全会精神,并部署有关工作。市领导许坚武参会并讲话。会议现场会议要求,要学深悟透市委十四届四次全会精神,切实把