2022 年 11 月 30 日,人工智能研究实验 室 OpenAI 上线了新一代对话式自然语言识 别(Natural Language Processing,NLP) 模 型 ChatGPT,该模型一经面世,首先引发了科技 界的巨大关注,后迅速在社会层面形成广泛 热议,在短短 5 天突破百万用户。毫无疑问, ChatGPT 表现出对话生成式 NLP 模型在多场 景、多行业、多领域的落地潜能与应用前景, 然而利用人工智能技术生成内容(AI Generated Content,缩写 AIGC)乃至所有深度合成内容当前所隐含的经 济、文化、社会风险也不容忽视。因此,有必要对 ChatGPT 技术特征及 GPT(Generative Pre-Training)发展历程展开梳理, 在展望其应用前景的同时,关注其现存风险并思考治理之道。
1. ChatGPT 技术特征及 GPT 发展历程
ChatGPT 可以理解为由 AI 驱动的聊天机器人,尽管在 专业知识与基础常识方面经常犯错,与人聊天过程中表现出 的连续且自洽的逻辑水平与快速响应能力足以令人咋舌,而 这些都来自于 ChatGPT 背后的强大技术支持,即 GPT-3.5 与整个 GPT 系列。
1.1 技术特征
就 ChatGPT 本身而言,其象征了 OpenAI 技术路线的 方向性转变,既集合了前几代 GPT 的技术优势,又具有其 独特之处,具体包括:
第一,单一模态。与 OpenAI 的另一条知名多模态领域研 究线,即人工智能图像生成器 DALL-E2 不同,GPT 系列始终 贯彻了以语言模型为任务核心的宗旨,且 GPT-2 时期,所适 用的任务开始锁定在语言模型。因此,ChatGPT 所使用的模态 类型也是仅有文字语言,并未涉及视觉、听觉等模态类型。
第二,巨量数据。AI 模型的逻辑能力与输出能力建立 在以海量数据为基础的计算机学习与虚拟生成之上。GPT 系列的模型训练参数量也可以体现出来,从 GPT-1 的 1.17 亿到 GPT-2 的 15 亿,再到 GPT-3 的 1750 亿,参数量从 亿级跃升至千亿级,而以 GPT-3.5 为基础模型微调生成的 ChatGPT 目前训练参数尚未公开。但可想而知,一向奉行“指 数力量”的 OpenAI,在 GPT-3.5 以及即将推出的 GPT-4 上至少可以达到千亿级的训练参数量。尽管 ChatGPT 的训 练策略与 GPT 系列奉行的半监督学习或无监督学习有所不 同,更加关注对参数的标注与强化学习,但在零样本学习 (Zero-Shot Learning,ZSL)成熟之前 [1],人工智能通过巨 量数据实现模型训练与迭代的发展路线依旧难以撼动。
第 三, 人 工 标 注。GPT 全 称 为 Generative Pre-trained Transformer,即生成型预训练变换模型。预训练模型的显著 特征是先运用大规模语料训练语言模型,将训 练结果参数保存并作为之后的模型初始化参 数,从而使新的模型以小规模训练与少量时间 得出较好模型。OpenAI 的 GPT 系列都是采用 Transformer 的预训练模式,以避免 NLP 模型 训练过程中需要大规模高质量标注数据且泛化 能力不足等局限。但 ChatGPT 在 GPT 系列技 术路线上发生了颠覆式迭代,在 GPT-3.5 大 规模语言模型的基础上,开始依托大量人工标 注数据,通过专业标注人员(据 OpenAI 称,是 40 位专业博士) 为 ChatGPT 提供人类指令的高质量答案,从而优化 GPT- 3.5 无法理解人类指令含义、无法判断输入的情况。
第四,强化学习。在如何更好理解人类指令方面, ChatGPT 还采用了来自人类反馈的强化学习(Reinforcement Learning from Human Feedback,RLHF)进行训练。强化学 习,即通过奖惩分明的系统打分,来更新参数以产生越来越 高质量的回答。据 OpenAI 官网 Blog 介绍,其创建了一个 强化学习的奖励模型:通过人工智能培训师对两个或多个模 型基于同一问题的对话响应进行排序。运用这些奖励模型, OpenAI 可以采取近端策略优化对 ChatGPT 进行微调,并对 这一过程进行了多次迭代。因此,在与 ChatGPT 的互动过 程中,人们发现它会承认错误、修复自己的答案,这是源于 它从 RLHF 训练中获取的强化学习并重新思考的能力。
1.2 GPT 系列发展历程
ChatGPT 不是凭空出现的,而是建立在 OpenAI 对于 语言模型,尤其 NLP 模型领域的持续研究与创造性探索。 ChatGPT 已经再次引爆社会对人工智能的多方讨论,但对 于生成式 AI 而言,ChatGPT 不是开始,也不会成为终点。 生成式 AI 的应用将如何展开,会带来怎样的影响,可以从 GPT 系列发展历程中窥得些许启示。
第 一,GPT-1: 选 择 半 监 督 学 习 模 式。2018 年, OpenAI 推出了第一代生成式预训练模型 GPT-1,该模型 采取的是生成式预训练 Transformer 模型,这是由谷歌公司 在 2017 年提出的一种采用自注意力机制的深度学习模型。 目前发布的整个 GPT 系列(包括 GPT-1、GPT-2、GPT- 3、GPT-3.5)都贯彻了这一预训练模式。在 GPT-1 之前, NLP 任务需要通过大规模、高质量标注数据集来进行有监督 的学习。而 GPT-1 采取了一种截然不同的深度学习模式, 即半监督学习。半监督学习是先通过无监督学习的预训练, 运用大量未标注数据增强模型的语言能力,再进行有监督的 微调,与大规模数据集集成以提高模型在 NLP 任务中的表 现。这种方式减少了模型训练对数据标注工作的依赖,使GPT-1 仅需要极少微调,就能够强化其 NLP 任务能力,但 也存在明显的数据局限与泛化能力不足。
第二,GPT-2:验证无监督学习模式的力量。相信数 据力量的 OpenAI 在 2019 年推出的 GPT-2 中,并没有转 变技术策略,而是重点关注上一代出现的泛化能力不足问 题,在训练数据与参数量上进行调整,使用了更大的数据集 WebText(取自 Reddit 上高赞的文章,约 40GB 文本数据、 800 万个文档),为模型添加了更多参数(达到 15 亿个,是 GPT-1 的近 13 倍),提升了数据质量与数据规模,从而使 得 GPT-2 在任务迁移方面展现出更优性能以及更惊人的生 成能力。GPT-2 的出现与性能提升,进一步验证了无监督 学习的力量,即通过海量数据与大规模参数训练而成的 NLP 模型能够无须额外训练具备迁移到其他类别任务的能力。
第三,GPT-3 与 GPT-3.5:在海量训练参数基础上加 入人工标注与强化学习。2020 年发布的 GPT-3 被认为是 目前最强大的语言模型,能够撰写人类难以判别的文章, 甚至编写 SQL 查询语句。而其强大性能依赖于海量训练参 数的喂养。相比于 GPT-2,GPT-3 则是将大规模数据的力 量发挥到极致,OpenAI 为其提供了 1750 亿的参数量,是 GPT-2 的 10 倍、GPT-1 的 100 倍以上,45 TB 的训练数据 以及 1200 万美元的训练费用更是不在话下。在技术路线上, GPT-3 删去微调步骤,直接输入自然文本作为指令,提升 了 GPT 在阅读文本后可接续问题的能力以及任务主题的 广泛性。GPT-3.5 的主要杰作就是近期大火的 ChatGPT。 ChatGPT 使用了微软 Azure AI 超级计算基础设施上的文本 和代码数据进行训练,在训练参数上增加到 GPT-3 的 10 倍 以上,延续了 OpenAI 对大规模数据的追求。此外,颠覆性 地使用大量人工标注数据与有人类反馈的强化学习,使得 ChatGPT 表现出出色的上下文对话能力甚至编程能力。
纵观 GPT 系列的发展,OpenAI 始终贯彻了大规模数 据与生成式预训练 Transformer 模型的技术路线,并通过不 断微调进行模型迭代优化,创造了 ChatGPT 的一鸣惊人。 正如前文所说,ChatGPT 不会是终点,OpenAI 即将发布的 GPT-4 会将生成式 AI 带向何方,还需拭目以待。
2. ChatGPT 的应用前景
ChatGPT 尽管在自然语言文本的处理上仍有不足,会 写出看似合理但不正确且荒谬的答案,例如将刘强东写作阿 里巴巴集团的联合创始人,但其所表现出的强大基础模型能 力,能够通过针对特定专业或行业进行微调,以提供优质的 专业性服务。因此,ChatGPT 的应用前景包括但不限于智能 机器人、行业智能助手、舆情分析等领域。
2.1 智能机器人
在 2C 场景中,智能机器人基于 NLP 的人机交互能力是 产品发展的刚需。其中人形机器人在现实场景中与人对话, 对流畅的语言交互能力更加依赖。只有机器人能够理解人类 指令并做出准确合理的需求响应,才能推动人形机器人完成 后续的各项任务,因此 NLP 技术水平直接影响着人形机器 人的技术发展与产品落地。 然而 NLP 模型的构建与训练需要花费大量时间、精力以 及算力,持续优化NLP模式所需的算法、算力、算据都较为庞大, 对于专注于实体机器人领域的技术来说,在保证人形机器人的 各项软硬件技术发展前提下投入大量成本进行 NLP 模型的迭 代并不现实。而ChatGPT的出现,进一步提升了NLP技术前沿, 若接入人形机器人应用后,有望为人形机器人的 2C 场景提供 更加仿真的人机互动,加速人形机器人的产品落地。 此外,虚拟空间中的智能机器人也能够依靠更为前沿的 NLP 技术增进其与用户的聊天体验,如游戏 NPC、虚拟智 能主播等,从而以此为基点探索新的用户交互服务。
2.2 行业智能助手
从 GPT-3 两年的商业化尝试可以看出,GPT 系列并不 能彻底取代某些职业,而更适合作为辅助生产力工具展开商 业化实践。在人工智能助手领域,智能客服、语音工作助手、 智能翻译等产业正在不断成熟,但当前的人工智能助手面临 着逻辑性不强、响应不准确等问题。这正是 NLP 技术能够 补足的行业短板。 在实践过程中,大量用户表示 ChatGPT 的对话体验要 明显优于 QQ 小冰、Siri 等智能助手的交互体验,尽管在生 活常识性问题的准确性上远不及后者,ChatGPT 能够通过 强化学习的方式进行自我纠错,在后续对话中纠正之前的 错误。此外,作为前沿 NLP 技术的模型代表,ChatGPT 在 代码纠错、文学创作等方面表现出的生成性能与需求响应能 力,体现出其发展为行业智能助手的潜力。各行各业能够通 过对 ChatGPT 的微调实现特定行业的专业化迭代,从而基 于 NLP 能力提供更准确的助手服务。
2.3 舆情分析
ChatGPT 的最大优势在于全球领先的 NLP 处理能力。 出色的上下文对话能力背后的词向量模型性能能够适应 NPL 任务,这也就意味着 ChatGPT 在最基础的文本分类、词性 判断、命名实体识别等 NLP 任务上表现不俗。对于舆情分 析而言,由于中文文本语义多元、语法特殊、寓意隐晦等特 点,准确判断文本色彩是舆情分析的重要难点。 利用强化学习模型,ChatGPT 基于用户互动与反馈能 够对文本属性进行更新,从而优化其内容理解与生成能力。 这不仅为智能舆情分析提供了更为前沿的 NLP 技术,也为 智能舆情分析模型的搭建提供了参考思路。
参考文献
[1] Romera-Paredes B, Torr P H S. An Embarrassingly Simple Approach to Zero-Shot Learning [M]//Visual Attributes. Cham:Springer International Publishing,2017:11-30.
作者简介:郭全中,中央民族大学新闻与传播学院教授、 江苏紫金传媒智库高级研究员;张金熠,中央民族大学新闻 与传播学院硕士研究生。