服务粉丝

我们一直在努力
当前位置:首页 > 财经 >

中金 | GPT-4到来:性能优化,多模态大幕拉开

日期: 来源:中金点睛收集编辑:于钟海 魏鹳霏等

本文作者:于钟海,魏鹳霏,王之昊

中金研究

OpenAI在北京时间2023年3月15日发布了多模态预训练大模型GPT-4,性能更加出色并支持多模态输入,OpenAI也随之发布技术报告并开源AI模型性能评估框架OpenAI Evals,继续推动模型进步。目前,GPT-4已可在ChatGPT Plus和API调用中使用。


Abstract

摘要


GPT-4开启多模态时代,接受包含文本和图片的输入,理解能力强大。GPT-4可以根据文本和图片的混合输入生成文本输出(包括自然语言和代码)。在含有文本和照片的文档、图表或屏幕截图等领域中,GPT-4的表现都非常出色,能够理解“梗图”、做计算题以及总结论文。它也可以通过测试时技术(Test-Time Techniques)如few-shot和chain-of-thought prompting进一步扩展能力,图片功能目前仍处研究阶段,暂不对外开放。


高难度阈值与GPT-3.5的对比及基于传统的机器学习基准,GPT-4均效果更佳。相比前代GPT-3.5,GPT-4在处理复杂任务时表现更为出色,在各大面向人类的考试中,GPT-4展示出了更高的准确性、可靠性、创造力和理解能力,比如在Uniform Bar Exam中,ChatGPT的成绩排名在后10%,而GPT-4的百分位在前10%。在传统机器学习的基准测试上,GPT-4比包括SOTA在内的其他大型语言模型表现更优异,MMLU的基准上高出11.2%。在测试的26种语言的24种中,GPT-4优于其他大语言模型的英语性能。GPT-4也已被应用在了在OpenAI内部,例如内容生成、销售和编程,并在模型训练的第二阶段负责输出评估、对齐工作。此外,OpenAI开源了用于评价大语言模型的开源框架OpenAI Evals。这个框架可以帮助研究人员和开发者评估他们的模型,并提供更好的指导。


GPT-4进一步重视安全性,生成回复的正确性得到了重点优化。OpenAI强调对模型进行评估和监控的重要性,以避免潜在的安全隐患。在OpenAI内部的对抗性真实性评估中,GPT-4的得分比GPT-3.5模型高出40%、对不允许内容的请求响应倾向降低了82%、对敏感请求(如医疗建议和自我伤害)的响应相符合政策的程度提高了29%。不足之处在于,GPT-4仍缺乏对其数据截止日期(2021年9月)之后事件的了解,也难以从经验中学习,经过后训练的GPT-4的校准率低于基础预训练模型。


综合来看,GPT-4是大模型进军多模态的重要突破,有望打开应用天花板。我们认为,本次GPT-4发布是“文-图-视频”多模态趋势的向前一步,短期有望催化AI发展生态,长期关注应用端更多可能性。


风险


技术进展不及预期,行业竞争加剧,商业化落地节奏不及预期。   


Text

正文


GPT-4到来:性能优化,多模态大幕拉开




开启多模态时代,理解能力显著增强


相较于GPT-3.5,GPT-4增加多模态能力,更有创造性与协作性。此次发布的GPT-4增加了多模态能力,可以在创意和技术写作任务中与用户一同生成、编辑和迭代,例如创作歌曲、编写剧本或者学习用户的写作风格。除此之外,GPT-4生成的回答准确性更高、理解能力更强、安全性更加可靠、生成内容更加丰富。


图表1:ChatGPT回答GPT-4较GPT-3.5在准确性、推理能力、知识库覆盖等方面显著提升

资料来源:ChatGPT,B站测评,中金公司研究部


相较于只能输入纯文本的GPT-3.5,GPT-4支持通过输入文本和图片组合输出文本,包括带有文本和图像的文档、图表以及截图。GPT-4能够通过为语言模型开发的测试时间技术得到增强,例如少样本和思维链,理解能力更加强大。在OpenAI提供的例子中,GPT-4能够理解“梗图”的幽默、计算物理题、总结论文甚至报税。


图表2:GPT-4按步骤计算一对夫妻的应纳税额

资料来源:OpenAI Live Demo,中金公司研究部


图表3:GPT-4理解“梗图”:VGA线给智能手机充电

资料来源:OpenAI《GPT-4 Technical Report》(March 14, 2023),中金公司研究部


图表4:GPT-4使用思维链提示解决物理题

资料来源:OpenAI《GPT-4 Technical Report》(March 14, 2023),中金公司研究部



GPT-4性能优化提升,准确性再上一层楼


GPT-4在处理复杂、细微任务中表现更加出色,准确性进一步提高。在传统机器学习的基准测试上,GPT-4比包括SOTA在内的其他大型语言模型表现更优异,MMLU的基准上高出11.2%。此外,GPT-4在大多数学术和专业考试中的表现与与人类水平相当,在Uniform Bar Exam中,GPT-4以应试者前10%的分数通过,而GPT-3.5 的得分在倒数10%。同时,GPT-4大幅优化对于跨语种支持的性能,例如GPT-4中文的准确性可以达到80.1%,而GPT-3.5英文的准确性仅为70.1%,对于绝大多数测试语言,GPT-4优于现有语言模型的英语表现。


图表5:GPT-4在传统机器学习标准表现出色

资料来源:OpenAI《GPT-4 Technical Report》(March 14, 2023),中金公司研究部


图表6:GPT-4在人类考试中远超GPT-3.5

资料来源:OpenAI《GPT-4 Technical Report》(March 14, 2023),中金公司研究部


图表7:在测试的26种语言的24种中,GPT-4优于其他大语言模型的英语语言性能

资料来源:OpenAI《GPT-4 Technical Report》(March 14, 2023),中金公司研究部



安全性成为GPT-4优化的重点,风险更加可控


GPT-4的安全性、一致性得到加强,回答更符合人类主流价值观。GPT-4与其他语言模型类似,都会生成有害的建议、有错误的代码或不准确的信息,OpenAI在训练过程中强调对模型进行评估和监控的重要性,以避免潜在的安全隐患。在OpenAI内部的对抗性真实性评估中,GPT-4的得分比GPT-3.5模型高出40%、对不允许内容的请求响应倾向降低了82%、对敏感请求(如医疗建议和自我伤害)的响应相符合政策的程度提高了29%。


图表8:GPT-4对不允许和敏感内容的错误行为率更低

资料来源:OpenAI《GPT-4 Technical Report》(March 14, 2023),中金公司研究部



GPT-4有望打开应用端天花板


GPT-4已经开始在应用端展开合作,涵盖语言、视觉等多领域。OpenAI正在使用GPT-4与一些组织合作开发创新产品,例如Duolingo使用GPT-4进行AI角色扮演与解释答案,Be My Eyes借助GPT-4的视觉输入功能开发虚拟志愿者以生成和人类志愿者相同水平的理解能力,Stripe利用GPT-4精简用户体验并打击欺诈,Morgan Stanley利用GPT-4组织其庞大的知识库。我们认为,GPT-4是大模型进军多模态的重要突破,有望打开多领域应用天花板。


图表9:Duolingo的AI角色扮演

资料来源:OpenAI官网,中金公司研究部


图表10:GPT-4驱动的Stripe文档

资料来源:OpenAI官网,中金公司研究部


Source

文章来源

本文摘自:2023年3月15日已经发布的《GPT-4到来:性能优化,多模态大幕拉开》

于钟海 分析员 SAC 执证编号:S0080518070011 SFC CE Ref:BOP246

魏鹳霏 联系人 SAC 执证编号:S0080121070252 SFC CE Ref:BSX734

王之昊 分析员 SAC 执证编号:S0080522050001 SFC CE Ref:BSS168


Legal Disclaimer

法律声明

特别提示

本公众号不是中国国际金融股份有限公司(下称“中金公司”)研究报告的发布平台。本公众号只是转发中金公司已发布研究报告的部分观点,订阅者若使用本公众号所载资料,有可能会因缺乏对完整报告的了解或缺乏相关的解读而对资料中的关键假设、评级、目标价等内容产生理解上的歧义。订阅者如使用本资料,须寻求专业投资顾问的指导及解读。

本公众号所载信息、意见不构成所述证券或金融工具买卖的出价或征价,评级、目标价、估值、盈利预测等分析判断亦不构成对具体证券或金融工具在具体价位、具体时点、具体市场表现的投资建议。该等信息、意见在任何时候均不构成对任何人的具有针对性的、指导具体投资的操作意见,订阅者应当对本公众号中的信息和意见进行评估,根据自身情况自主做出投资决策并自行承担投资风险。

中金公司对本公众号所载资料的准确性、可靠性、时效性及完整性不作任何明示或暗示的保证。对依据或者使用本公众号所载资料所造成的任何后果,中金公司及/或其关联人员均不承担任何形式的责任。

本公众号仅面向中金公司中国内地客户,任何不符合前述条件的订阅者,敬请订阅前自行评估接收订阅内容的适当性。订阅本公众号不构成任何合同或承诺的基础,中金公司不因任何单纯订阅本公众号的行为而将订阅人视为中金公司的客户。

一般声明

本公众号仅是转发中金公司已发布报告的部分观点,所载盈利预测、目标价格、评级、估值等观点的给予是基于一系列的假设和前提条件,订阅者只有在了解相关报告中的全部信息基础上,才可能对相关观点形成比较全面的认识。如欲了解完整观点,应参见中金研究网站(http://research.cicc.com)所载完整报告。

本资料较之中金公司正式发布的报告存在延时转发的情况,并有可能因报告发布日之后的情势或其他因素的变更而不再准确或失效。本资料所载意见、评估及预测仅为报告出具日的观点和判断。该等意见、评估及预测无需通知即可随时更改。证券或金融工具的价格或价值走势可能受各种因素影响,过往的表现不应作为日后表现的预示和担保。在不同时期,中金公司可能会发出与本资料所载意见、评估及预测不一致的研究报告。中金公司的销售人员、交易人员以及其他专业人士可能会依据不同假设和标准、采用不同的分析方法而口头或书面发表与本资料意见不一致的市场评论和/或交易观点。

在法律许可的情况下,中金公司可能与本资料中提及公司正在建立或争取建立业务关系或服务关系。因此,订阅者应当考虑到中金公司及/或其相关人员可能存在影响本资料观点客观性的潜在利益冲突。与本资料相关的披露信息请访http://research.cicc.com/disclosure_cn,亦可参见近期已发布的关于相关公司的具体研究报告。

本订阅号是由中金公司研究部建立并维护的官方订阅号。本订阅号中所有资料的版权均为中金公司所有,未经书面许可任何机构和个人不得以任何形式转发、转载、翻版、复制、刊登、发表、修改、仿制或引用本订阅号中的内容。

相关阅读

  • 中金 | 畜禽养殖专题一:猪价弱景气,企业强分化

  • 中金研究重点提示疫后猪价弱复苏阶段,由产能去化引发的投资机会。我们认为在强预期、弱现实的猪价表现下,生猪养殖行业资金链紧张将持续加剧,并触发持续性产能去化,我们建议优选
  • 【开源固收】经济存在内生动力

  • 本文作者:陈曦,开源证券固收首席;联系人:张鑫楠核心观点1.1-2月,工增同比+2.4%(前值+1.3%,下同);社零同比+3.5%(-5.9%),固投同比+5.5%(+3.2%),房地产开发投资同比-5.7%(-12.2%),制造业投资同比+
  • 强弱复苏的分界线 | 民生·周君芝团队

  • 民生宏观 · 周君芝团队导读弱复苏还是强复苏,关键在于跟踪地产价格走势。要点3月15日,统计局公布1-2月经济数据。2023年1-2月份社零同比3.5%,较前值走高5.3个百分点;1-2月固定
  • O₂Micro凹凸科技宣布从纳斯达克退市

  • 近日,O₂Micro International Limited(“O₂Micro”或“凹凸科技公司”,Nasdaq: OIIM)宣布已经完成私有化交割,将正式从纳斯达克(Nasdaq)交易所退市。据O₂Micro凹凸科技公司公
  • ChatGPT升级到GPT-4模型 以图生文时代来临

  • 点击上方蓝字 关注我们图片来自视觉中国此次发布重点已经从参数规模的扩张,转向模型的实际应用表现。GPT-4模型文字处理能力更强,首次支持用户和AI模型间的图片交互文|财新 刘

热门文章

  • “复活”半年后 京东拍拍二手杀入公益事业

  • 京东拍拍二手“复活”半年后,杀入公益事业,试图让企业捐的赠品、家庭闲置品变成实实在在的“爱心”。 把“闲置品”变爱心 6月12日,“益心一益·守护梦想每一步”2018年四

最新文章

  • 如何用 GPT-4 帮你写游戏?

  • 你知道的,GPT-4 发布了。目前你想要用上 GPT-4,主要的渠道是 ChatGPT Plus 。作为交了订阅费的用户,你可以在对话的时候选择模型来使用。另一种渠道,就是申请官方 API 的排队。
  • 李迅雷专栏 | M2增速创新高的背后

  • 从公布的2月份金融数据看,新增信贷、社融增速较强劲,广义货币M2增速创下近7年新高,这其中有春节假期错位、经济环境回暖以及政策加力等多方因素作用。 目前大部分分析报告对2月
  • 中金 | 海外:瑞信风波重燃全球银行稳定性担忧

  • 瑞信风波重燃全球银行稳定性担忧继上周美国部分银行风波引发市场对于银行体系稳定性广泛关注后,隔夜瑞信再起波澜,股价跌幅一度高达30%,CDS再次升至历史最高水平,这也使得略微有