服务粉丝

我们一直在努力
当前位置:首页 > 财经 >

Azure OpenAI 官方指南02|ChatGPT 的架构设计与应用实例

日期: 来源:微软开发者MSDN收集编辑:Azure OpenAI

点击上方蓝字

关注我们

(本文阅读时间:9分钟)


ChatGPT 作为即将在微软全球 Azure 公有云平台正式发布的服务,已经迅速成为了众多用户关心的服务之一。而由 OpenAI 发布的 ChatGPT 产品,仅仅上线两个月,就成为互联网历史上最快突破一亿月活的应用。本期从技术角度深度解析 ChatGPT 的架构设计与应用实例



ChatGPT的起源 ╱ 01

InsturctGPT的架构设计 ╱ 02

ChatGPT的技术应用场景及示例 ╱ 03




01

ChatGPT 的起源


ChatGPT 是由 OpenAI 公司在 2022年11月推出的一款智能聊天机器人程序,属于文本类AI应用。这里,Chat 即「聊天」,GPT 的全称为“Generative Pre-trained Transformer”。由于采用 Transformer 架构,且 ChatGPT 在 GPT-3 大模型基础上专门针对 Chat 聊天能力做了性能上的调优,所以 ChatGPT 在自然语言的许多交互场景中表现出了卓越的性能。


Transformer 模型在2017年问世,能够同时并行进行数据计算和模型训练,训练时长更短,并且训练得出的模型可用语法解释,也就是模型具有可解释性。经过训练后,这个最初的 Transformer 模型在包括翻译准确度、英语成分句法分析等各项评分上都达到了业内第一,成为当时最先进的大型语言模型(Large Language Model, LLM)。


2018年,在 Transformer 模型诞生还不到一年的时候,OpenAI 公司发表了论文“Improving Language Understanding by Generative Pre-training”(用创造型预训练提高模型的语言理解力),并推出了具有1.17亿个参数的GPT-1(Generative Pre-training Transformers)模型。


这是一个用大量数据训练的、基于 Transformer 结构的模型。OpenAI 的工程师使用了经典的大型书籍文本数据集(BookCorpus)进行模型预训练。该数据集包含超过7000本从未出版的书籍,涵盖了冒险、奇幻、言情等类别。在预训练之后,工程师们又针对四种不同的语言场景、使用不同的特定数据集对模型进行进一步的训练(又称为微调,Fine-Tuning)。最终训练所得的模型在问答、文本相似性评估、语义蕴含判定,以及文本分类这四种语言场景,都取得了比基础 Transformer 模型更优的结果,成为了新的业内第一。


2019年,OpenAI 公布了一个具有15亿个参数的模型:GPT-2。该模型架构与 GPT-1 原理相同,主要区别在于 GPT-2 的规模更大(10倍)。同时,OpenAI 也发表了介绍该模型的论文“Language Models are Unsupervised Multitask Learners”


2020年,OpenAI 发表论文“Language Models are Few-Shot Learner”,并推出了最新的 GPT-3 模型——它有1750亿个参数。GPT-3 模型架构与 GPT-2 类似,但是规模大了整整两个数量级。GPT-3 的训练集也比前两款 GPT 模型要大得多:经过基础过滤的全网页爬虫数据集(4290亿个词符)、维基百科文章(30亿词符)、两个不同的书籍数据集(670亿词符)。


2022年3月,OpenAI再次发表论文“Training Language Models to Follow Instructions with Human Feedback”,并推出了基于 GPT-3 模型并进一步微调的 InstructGPT 模型。InstructGPT 的模型训练中加入了人类的评价和反馈数据,而不仅仅是事先准备好的数据集,从而训练出更真实、更无害,且更好地遵循用户意图的语言模型。


2022年11月,ChatGP 横空出世,它是基于 GPT-3.5 架构开发的对话AI模型,是 InstructGPT 的兄弟模型。但两者在训练模型的数据量上,以及数据收集、数据如何设置用于训练方面有所不同。



02

InsturctGPT 的架构设计


目前 Azure OpenAI 还没有官方公开资源详细说明 ChatGPT 的技术原理,因此我们将以 ChatGPT 的兄弟模型 InstructGPT 为对象,深度解析其算法架构设计。

如上图所示,开发人员将提示分为三个阶段,并以不同的方式为每个阶段创建响应和训练:


第 1 阶段

训练监督策略模型


在这个阶段,工程师会在数据集中随机抽取问题,由专门的标注人员给出高质量答案,然后用这些人工标注好的数据来微调 GPT-3.5 模型。这些标注人员会在应聘前进行筛选测试,训练数据大约有1万3千个。相较于第二、三阶段,这里用到的数据量较少。

标注人员根据提示 (prompt) 编写质量可靠的输出响应 (demonstrations)。这里采用的是 Supervised Fine-Tuning(SFT)模型有监督的策略来进行微调。微调之后,SFT 模型在遵循指令/对话方面已经优于 GPT-3.5,但不一定符合人类偏好。


第 2 阶段

训练奖励模型


这一阶段主要是训练一个奖励模型Reward Modeling (RM)。这里的训练数据是怎么得到的呢?首先通过在数据集中随机抽取问题,使用第一阶段生成的模型,对每个问题生成多个不同的回答,然后再让标注人员对这些回答进行排序。对于标注人员来说,对输出进行排序比从头开始打标要容易得多,因此这一过程可以扩展数据量,大约产生3万3千个训练用的数据。


接下来,再使用这个排序结果来训练奖励模型。对于多个排序结果,两两组合,形成多个训练数据对。RM 模型接受输入后,给出评价回答质量的分数。对于一对训练数据,通过调节参数使得高质量回答的打分比低质量的打分要高。奖励模型学会了为评分高的响应计算更高的奖励,为评分低的回答计算更低的奖励。


第 3 阶段

采用 PPO 强化学习进行优化


PPO (Proximal Policy Optimization,近端策略优化)是一种用于在强化学习中训练 agent 的策略,这里被用来微调 SFT 模型。这一阶段利用第二阶段训练好的奖励模型,靠奖励打分来更新预训练模型参数。在数据集中随机抽取问题后,使用 PPO 模型生成回答,并用上一阶段训练好的 RM 模型计算奖励,给出质量分数,然后用这个奖励来继续更新 PPO 模型。奖励依次传递,由此产生策略梯度,通过强化学习的方式更新 PPO 模型参数


不断重复第二和第三阶段,通过迭代,会训练出更高质量的 InstructGPT 模型。我们将来自于人类反馈的强化学习简称为 RLHF(reinforcement learning from human feedback):使用人类的偏好作为奖励信号来微调模型。这也是 ChatGPT 在实际对话过程中的输出更符合人类偏好的原因。



03

ChatGPT

技术应用场景及示例


总的来说,ChatGPT 有如下几大类技术应用的领域——

⦿ 对话机器人:可以用于生成自然语言对话,实现人机交互。

⦿ 文本生成:可以用于生成摘要、文章、诗歌等文本。

⦿ 问答系统:可以用于回答用户提出的问题,提供相关信息。

⦿ 自动翻译:可以用于实现自动翻译,将文本从一种语言翻译为另一种语言。

⦿ 情感分析:可以用于分析文本的情感倾向,实现情感分析。

⦿ 语音合成:可以用于生成语音,将文本转换为语音。


场景示例 1 

NLP 领域


⦿ 生成摘要

⦿ 情感分析(小样本或零样本)

few-shot or zero-shot

⦿ 开放领域问答

⦿ 由文字生成表格

⦿ 数据集生成(小样本或零样本)

few-shot or zero-shot

◀︎  向左滑动查看更多  ▶︎


场景示例 2 

代码领域


⦿ 代码生成

⦿ 解释代码

⦿ 知识库生成

◀︎  向左滑动查看更多  ▶︎



Azure OpenAI 官方指南

Vol.02 ChatGPT 作者


Annie Hu 微软云 AI 高级技术专家





谢谢你读完了本文!欢迎在评论区留言分享你的想法,并且转发到朋友圈

长按识别二维码

关注微软开发者MSDN

喜欢记得分享哦~

相关阅读

  • 杨庆峰:ChatGPT的生成特性及其意义

  • 文 | 杨庆峰,复旦发展研究院研究员、中国科协-复旦大学科技伦理与人类未来研究院教授随着聊天程序ChatGPT成为时下关注的焦点,人们意识到人工智能正在影响着各个领域与学科,正
  • 刘庆峰代表谈ChatGPT:不仅仅是一个对话式机器人

  •   中国经济网北京3月6日讯(记者 马常艳)“随着时间的推移,ChatGPT将不仅仅是一个对话式的机器人,而会是给各行各业带来颠覆的人工智能助手,让每个人能站在人工智能的肩膀上发挥
  • GPT4展望:多模态,CHATGPT下一站

  • 核心观点GPT4有望于2023年发布。根据《财富》杂志报道,OpenAI还有更多创新蓄势待发,OpenAI在贝塔测试版GPT-4中采用了更强大的大语言模型,预计该版本将于今年甚至很快发布。关
  • 【国盛计算机】多模态GPT,比我们想象的更近

  • 核心观点微软推出多模态大语言模型KOSMOS-1,印证大语言模型能力可延伸至NLP外领域。该模型采用多模态数据训练,可感知图片、文字等不同模态输入,并学习上下文,根据给出的指令生
  • TensorFlow图像分类教程

  • 点击下方卡片,关注“新机器视觉”公众号重磅干货,第一时间送达来源:阿里云云栖号导读:深度学习算法与计算机硬件性能的发展,使研究人员和企业在图像识别、语音识别、推荐引擎和机
  • 工业互联网,狂飙向何方?

  • 作 者:荔枝来 源:正和岛(ID:zhenghedao)2023年全国两会正在召开,与经济高质量发展相关的话题备受瞩目。作为第四次工业革命的重要基石,工业互联网已成为全球主要工业国家抢占产业竞
  • 奇舞周刊第 484 期 浅谈前端组件设计

  • 记得点击文章末尾的“ 阅读原文 ”查看哟~下面先一起看下本期周刊 摘要 吧~ 奇舞推荐■ ■ ■ 浅谈前端组件设计与仅承担数据处理逻辑的后端不同,前端需要负责界面渲染、数据

热门文章

  • “复活”半年后 京东拍拍二手杀入公益事业

  • 京东拍拍二手“复活”半年后,杀入公益事业,试图让企业捐的赠品、家庭闲置品变成实实在在的“爱心”。 把“闲置品”变爱心 6月12日,“益心一益·守护梦想每一步”2018年四

最新文章

  • 惊蛰·新余丨春雷响,蒙鼓皮

  • 澎湃新闻记者 卫佳明 惊蛰,又名“启蛰”,是二十四节气中的第三个节气,它的到来标志着仲春时节的开始。此时,气温逐渐上升,天气回暖,长江流域大部分地区已渐有春雷。澎湃新闻推出二
  • .NET 8 预览版 1 发布!

  • 点击上方蓝字关注我们(本文阅读时间:20分钟).NET 8 是一个长期支持(LTS) 版本。这篇文章涵盖了推动增强功能优先级排序和选择开发的主要主题和目标。.NET 8 预览版和发布候选