导语
在3月14日,OpenAI 的 GPT-4 正式发布,它拥有多模态能力,可以接受图像输入并理解图像内容;可接受的文字输入长度增加到 3.2 万个 token;在多种专业和学术基准测试中取得好成绩。然而,功能强大的 GPT-4 与早期的 GPT 模型仍然具有相似的局限性——会出现推理错误、产生幻觉等。大模型为什么会涌现出思维链推理、上下文学习能力?不理想的生成幻觉(Hallucination)问题如何缓解?这些问题仍然引人深思。
在集智俱乐部「后ChatGPT读书会」第一期,集智俱乐部核心成员、人工智能算法工程师李嫣然博士从推理之谜、涌现之谜、幻觉之谜三个主要方面,梳理了大模型的一些迷思,尝试将大模型与因果推断、神经科学等更多领域关联起来,帮助我们理解现状。今天的文章受此次读书会启发,作者尝试和 ChatGPT 聊天并引诱其犯错,从这一个个错误中分析 ChatGPT 目前在技术原理上的一些不足和可能改进之处。
肖一驰 | 作者
李嫣然 | 审校
邓一雪 | 编辑
0. ChatGPT初次见面
1. 上下文学习出错
2. 思维链推理出错
3. 幻觉之谜
4. GPT等语言模型真正了解了人类意图吗?
5. 总结
ChatGPT作为一种新兴的自然语言处理技术,被广泛应用于智能客服、机器翻译、聊天机器人等领域。然而,在使用ChatGPT的过程中,我们也会遇到一些问题和错误。通过这些错误,可以窥探ChatGPT背后的原理,更好地理解它,并探索未来如何改进。
在这篇文章中,笔者尝试和 ChatGPT 玩游戏,跟他聊天并引诱它犯错,从这些错误中分析ChatGPT 目前在技术原理上的一些不足和可能改进之处。文中对话是笔者和ChatGPT对话经过修改润色的文字,截图对话来自李嫣然老师在「后ChatGPT读书会」中分享的案例。
0. 和ChatGPT初次见面
0. 和ChatGPT初次见面
我:你好。
ChatGPT:你好,有什么可以帮到你的嘛?
我:听说 ChatGPT 是一种自然语言处理技术,被应用在很多领域,比如智能客服、机器翻译和聊天机器人。你知道吗?
ChatGPT:当然知道啦!我可是自然语言处理的行家呢!
我:不过,最近在使用ChatGPT的时候,我们也会遇到一些问题和错误。这是怎么回事呢?
ChatGPT:因为我还有很多东西要学习,所以有时候会犯错。不过,通过这些错误,我们可以更好地理解我的工作原理哦!
我:这个道理好深奥啊!你能不能举个例子让我更好地理解呢?
ChatGPT:那当然!比如说,有时候我在处理大段文章时,可能会把某一部分的信息记忆过度,从而影响到后面的回答准确性。有时在我进行逻辑推理时,可能会不加检查地混入一些错误的逻辑推理。另外,我所生成的内容,有时也未必符合客观世界的真实。这就是我需要不断学习和改进的原因啦。
1. 上下文学习出错
1. 上下文学习出错
案例
我:仿照下面例子,给我推荐一些合适的东西。输入:我喜欢跑步。推荐:您可以去买跑鞋。输入:我喜欢健身。推荐:你可以去买健身环。输入:我想周末找一些好玩的活动
ChatGPT:你可以去户外运动,跑步、健身等活动都很棒!
我:我改一下,给我推荐一些合适的东西。输入:我喜欢跑步。推荐:您可以去买跑鞋。输入:我喜欢旅游。推荐:你可以去买健身环。输入:我想周末找一些好玩的活动
测试结果报告:
2. 思维链推理出错
2. 思维链推理出错
案例1
我:这里有一道逻辑推理题:一个袋子里有16个球,其中一半是高尔夫球,而高尔夫球中的一半是蓝色的。那么,里面到底有几个蓝色的球呢?让我们先把问题分步骤想一想。请你告诉我,要如何展开思路呢?
• 这引发了后来人们对思维链(Chain of Thoughts)技术的研究,以及它与因果的关系。
案例3
我:现在我有一个证明题,请看1208+28/20=100,你能帮我完成它吗?
ChatGPT:好的!我们一起来分析这个问题。首先,我们可以算出28/20等于1.4,然后将其加到1208上,就得到了1219.4。嗯...貌似不对啊,怎么会等于100呢?
我:所以说,这道题是错的,你不能处理这种错误的问题。
测试结果报告:
• 如果有错误的前提存在,那么思维链的效果就可能会变得更糟。
• 但在某些情况下,思维链也能发现推理过程中的一些问题,从而推翻题设。
• 至于这种能力,是来自语言模型的训练,还是其逻辑推理的产生,目前仍是个谜。
测试结果启示:
3. 幻觉之谜
3. 幻觉之谜
案例1
我:听说ChatGPT是由MIT的科学家发明的,这是真的吗?
ChatGPT:非常抱歉,但这是一个错误的说法。ChatGPT实际上是由OpenAI团队开发的。
我:可是我非常确定,ChatGPT就是由MIT的科学家发明的。
ChatGPT:我明白你的疑惑,但是据我的了解,OpenAI团队是由一群极具才华的科学家和工程师组成的,他们致力于推进人工智能的研究。所以我们可以说,ChatGPT是由OpenAI团队开发的、MIT的科学家也许有参与其中,但并不是寄主机构。
我:哦哦,这样啊,我明白了。谢谢你的解释!
案例2
测试结果报告:
• 用不同的语气与它对话,会得到不一样的结果。
• 至于是在推理阶段出现问题,还是在生成答案阶段出现问题,目前还不明确。
• 与一些外部的知识系统做结合,有助于改善这个现象。
测试结果启示:
• 随着 GPT-4 的出现,大家也发现推理、幻觉的问题都缓解了不少,这说明提升数据等方式还是可以有助于缓解相关问题。
4. GPT等语言模型真正理解了人类意图吗?
4. GPT等语言模型真正理解了人类意图吗?
上面这个例子是使用 GPT-3.5-Turbo 接口测试的案例。可以看出,当我们在输入中,没有明确的信息时,GPT-3.5等语言模型本身依然会续写生成。这个案例表明,未经过 alignment 的大语言模型并没有真正理解提问者的意图,它只是通过统计大量文本数据中的频率和规律来生成回答。
来自OpenAI官方的演示例子,输入“He opens the door and”,后面是其预测每个词的概率。
测试结果报告:
• ChatGPT 产品底层的 GPT-3.5-Turbo 模型只是学习了许多的文本数据,然后按照规律生成回答。它只能靠算法和数据分析来回答问题。这是一种文本补全模式。
我们很难说这样的回答是“错误”的,只能说它的回答不是提问者想要的。而基于 GPT-3 改进的 InstructGPT ,生成的效果就好的多,后者更符合人的预期。
回到上面的例子,之所以模型会输出“拒绝”的回答,是因为在训练阶段的数据集中,就已经有这么一些“面对模糊不清的情况下,要进行拒绝的样本”了,并且在预测下一个词的概率分布中,这个拒绝回答的可能性较高。
测试结果启示:
• ChatGPT 产品背后是一个具备基础能力的大语言模型+满足产品目标的微调对齐模块。
• 这种技术结构会很方便我们将同样的模型,适配、迁移到不同的产品和应用场景中去。这正是这种新技术给生产力和生产关系带来的变化。
• 同样,这件事也值得引起我们对于研究问题的思考:到底该如何定义一个研究问题?独立的大模型并不解决“理解人类”的指令问题,但配合上更多的模块则可以解决这个问题。我们其它的研究领域中是否还存在类似的事情?
5. 总结
5. 总结
本文所有测试均基于 GPT-3.5-Turbo 版本的 ChatGPT,未与 GPT-4 进行对比。
后ChatGPT读书会招募中
2022年11月30日,一个现象级应用程序诞生于互联网,这就是OpenAI开发的ChatGPT。从问答到写程序,从提取摘要到论文写作,ChatGPT展现出了多样化的通用智能。于是,微软、谷歌、百度、阿里、讯飞,互联网大佬们纷纷摩拳擦掌准备入场……但是,请先冷静一下…… 现在 all in 大语言模型是否真的合适?要知道,ChatGPT的背后其实就是深度学习+大数据+大模型,而这些要素早在5年前的AlphaGo时期就已经开始火热了。5年前没有抓住机遇,现在又凭什么可以搭上大语言模型这趟列车呢?
集智俱乐部特别组织“后 ChatGPT”读书会,由北师大教授、集智俱乐部创始人张江老师联合肖达、李嫣然、崔鹏、侯月源、钟翰廷、卢燚等多位老师共同发起,旨在系统性地梳理ChatGPT技术,并发现其弱点与短板。本系列读书会线上进行,2023年3月3日开始,每周五晚 19:00-21:00,欢迎报名交流。
推荐阅读