服务粉丝

我们一直在努力
当前位置:首页 > 财经 >

易观:正视GPT-4功能缺陷与能力局限可更好探索大模型应用

日期: 来源:易观分析收集编辑:陈一墨


易观:GPT-4于2023年3月14日正式发布。与前代相比,GPT-4的功能有着非常大的提升,易观认为其功能符合预期,也依旧存在前代即存在的功能缺陷类型与能力局限性。GPT-4的原有功能提升与新特性使其可应用的范围更广,但对GPT-4的应用需正视其目前存在的功能缺陷与能力局限性,以采取技术手段、改进应用方法、设计应用流程等方式充分挖掘其应用潜力的同时规避可能存在的应用风险。



GPT-4的功能缺陷与能力局限性以及相关思考


3月14日,GPT-4正式发布。OpenAI首席执行官Sam Altman表示GPT-4是他们目前功能最强的模型,而GPT-4也极有可能是对公众开放使用的功能最强的大模型。与GPT-3.5相比,GPT-4的功能更强。在如GRE定量推理、SAT数学等为人类设计的多项模拟考试中成绩有较大幅度的提升,在传统机器学习模型评估中其成绩也有非常明显的提升。作为多模态模型,GPT-4对图像的理解极为准确,且能解读图像中的深层含义。在推理方面,GPT-4的思维链,即将复杂推理任务分解为多个中间推理步骤的能力较前代也有明显提升。易观认为GPT-4在功能上的提升重点是其多模态理解能力与思维链能力,而这也使GPT-4具有更广的应用空间。

但也如Sam Altman所言,GPT-4仍有缺陷,其能力也有局限性。功能缺陷方面,与第4版ChatGPT相比,GPT-4的回答虽然在各个领域的知识上的真实率有了平均19%的提升,但其回答仍然会“编造”事实,并进行错误的推理。目前有关GPT-4的公开信息仍然较少,但易观认为GPT-4采用的事实测试其数据与GPT-4训练数据分布存在偏差,因此可以认为在测试中GPT-4已展示出出色的领域泛化能力,且“编造”事实的情况也可以认为是领域泛化的应用尝试,这也与神经科学中关于形成认知的过程相关研究成果具有较强的相似性。但结合GPT-4对错误答案的“坚持”与拒绝审查错误答案的情况也说明GPT-4目前对训练数据分布的边界感知仍然非常模糊。能力局限性方面,GPT-4的绝大部分预训练数据截止至2021年9月,因此十分缺少在此时点之后的知识,比如GPT-4很可能不知道女王逝世的信息。且GPT-4不能从对话经验中进行学习,而这种能力的局限性也从侧面反映出目前距离通用人工智能还有很长的一段路要走。

从人工智能相关研究来看,应对GPT-4的功能缺陷需要关注领域泛化相关研究,建议关注元学习、自监督学习、解耦表达学习方面的研究进展以及运用强化学习探索中间表达的分布的相关研究。易观认为解决训练数据分布的边界感知问题可能需要以图的形式审视训练数据,但目前从对图的学习研究进展来看,利用图神经网络学习GPT-4的训练数据图仍然有着非常大的挑战。从能力局限性来看,需要长期关注持续学习领域相关研究的进展,建议关注域增量持续学习与任务不可知持续学习的相关研究进展,重点关注基于参数隔离的持续学习方法,易观认为应用于基于参数隔离持续学习方法仍然需要以图的形式审视基于任务的参数隔离方法,并要形成任务与隔离方法的评估标准。

从应用角度来看,既可以采用技术的方式降低GPT-4的应用风险,也可以通过改进应用方式拓展其可用性,企业更应在充分考虑其缺陷与局限性的前提下制定合理合规的应用流程。后续也将在这个部分进一步展开。


对GPT-4的部分猜想及其引发的对大模型开发与应用的思考

目前已知GPT-3的参数量为175B,而其后GPT-3.5的参数量未知。易观认为GPT-3.5的参数量可能已接近500B规模,而GPT-4的参数量即使在经后训练后很可能也已突破1T规模。而从ChatGPT的应用效果来看,很有可能GPT-3.5已经采用编解码架构,GPT-4也沿用同一架构。

根据以上猜想,从微软与OpenAI对GPT系列模型训练而准备的算力规模来看,已有针对超算的并行计算框架,并很大程度上解决了T级参数量大模型的并行计算问题,即在大模型开发的工程化能力方面获得了前沿经验,也可以保证后续开发的大模型参数量的持续增长。从目前公开的GPT-4训练方面的资料来看,OpenAI也已经对大模型训练的规律有着较好的总结,这也有利于开发针对某一领域,具备特定功能的大模型。AI工程化能力的升级对于我国进行大模型的开发与落地具备非常重要的借鉴意义。

在商业化的考虑上,GPT-4所产生的示范效应主要为如下几个方面,国内大模型开发与商用过程中可以予以借鉴。

其一,与GPT-3.5以及ChatGPT相比,GPT-4更侧重其企业级应用的稳定性与安全性,GPT-4在2022年8月已经完成训练,而为了应对可能的风险,在完成训练后直到正式发布的这段时间里一直在对其进行评估、对抗测试、迭代提升、微调与系统级的调整;

其二,尽管GPT-4并未开源,但是需要关注到OpenAI同时开源的Evals,既可以用来评估不同大模型的表现,也可以为特定问题设计专有的评估逻辑。这既可证明其产品能力,又为行业设定标准,更可用来辅助设计GPT-4在不同场景不同行业的应用模式。充分利用GPT-4的思维链能力,检查其推理逻辑,拓展其可用性,规避错误推理以及“编造”事实可能产生的应用风险,企业应用GPT-4时,也应针对性的设计人工审查环节,明确责任主体,充分利用其生产力的同时保证其应用的合规性,降低应用风险发生的可能性;

其三,深度协同形成最佳实践,激发围绕GPT-4应用与开发的无限可能性,此次摩根斯丹利、Be My Eyes、可汗学院等应用实践不仅是GPT-4能力的最佳佐证,也进一步引导了未来其应用的可能方向,包括智能客服、知识搜索、虚拟员工与智能办公等应用,以及在软件开发、金融、医疗、法律、广告等行业的应用价值等;

其四,开放文本输入字数限制,不仅仅展示了其快速的文本理解与逻辑学习能力,同时,也为其按照输出内容量收费的商业化可能性打开了想象空间,结合其最佳实践的引导,无论是场景应用还是商业模式方面,GPT-4均做出了比较好的示范,值得中国大模型予以借鉴。





易观分析内容速览
精、稳、敏、融,步入人民金融时代 | 易观银行业数字化转型年度趋势报告
2023年中国人工智能产业趋势报告
2023年中国产业数字化十大趋势
联系我们

  商务合作

老没:13262228281(微信同号)

 媒体采访

易观分析媒介:ygfxmkt(微信号)

     文章转载

     大福:s1861825(微信号)

声明须知
声明须知:易观分析在本文中引用的第三方数据和其他信息均来源于公开渠道,易观分析不对此承担任何责任。任何情况下,本文仅作为参考,不作为任何依据。本文著作权归发布者所有,未经易观分析授权,严禁转载、引用或以任何方式使用易观分析发布的任何内容。经授权后的任何媒体、网站或者个人使用时应原文引用并注明来源,且分析观点以易观分析官方发布的内容为准,不得进行任何形式的删减、增添、拼接、演绎、歪曲等。因不当使用而引发的争议,易观分析不承担因此产生的任何责任,并保留向相关责任主体进行责任追究的权利。

相关阅读

  • 能赋诗写剧看漫画,但GPT-4“不认识”GPT-4

  • 中新网3月16日电 (中新财经记者 吴涛)北京时间15日凌晨,OpenAI发布大型多模式模型GPT-4。OpenAI称,GPT-4在先进推理上超过了ChatGPT,是OpenAI努力扩展深度学习的最新里程碑。这
  • 省级大赛圆满收官!莆田学院学子再创佳绩

  • 3月11日-12日,2022年福建大学生工程实践与创新能力大赛在莆田学院举行。由莆田学院工程实训中心组织的机械、电气、测控、机器人、土木等多学科融合、不同学院学子组合的23支
  • 【国盛计算机】GPT-4发布,多模态时代开启

  • 核心观点AI最新里程碑,GPT-4发布。3月14日,OpenAI发布GPT-4, 是一个大型多模态模型(接受图像和文本输入,发出文本输出),实现了以下几个方面的飞跃式提升: 1)强大的识图能力;2)字数限制
  • GPT-4震撼发布:多模态大模型,直接升级ChatGPT、必应

  • 本文来自微信公众号:机器之心 (ID:almosthuman2014),作者:机器之心,原文标题:《GPT-4震撼发布:多模态大模型,直接升级ChatGPT、必应,开放API,游戏终结了?》,头图来自:unsplash谁能革得了 Ch
  • GPT-4就是冲着赚钱来的

  • 出品|虎嗅科技组作者|齐健编辑|陈伊凡头图|电影《华尔街之狼》GPT-4就是冲着赚钱来的!北京时间3月15日凌晨,OpenAI正式官宣了大模型GPT-4 。在惊艳到出圈的ChatGPT推出后仅仅4个月

热门文章

  • “复活”半年后 京东拍拍二手杀入公益事业

  • 京东拍拍二手“复活”半年后,杀入公益事业,试图让企业捐的赠品、家庭闲置品变成实实在在的“爱心”。 把“闲置品”变爱心 6月12日,“益心一益·守护梦想每一步”2018年四

最新文章

  • 暴跌!这国要出手了?

  • 当地时间3月15日晚,瑞士国家银行和瑞士金融市场监督管理局就市场不确定性发表联合声明称,美国某些银行的问题不会对瑞士金融市场构成直接蔓延风险。瑞士信贷满足对系统重要性
  • 这里突发7.0级地震

  • 中国地震台网正式测定:03月16日08时56分在新西兰克马德克群岛(南纬30.20度,西经176.05度)发生7.0级地震,震源深度10千米。来源:@中国地震台网速报了解《环球时报》的三观请长按下
  • 环球时报招聘啦!

  • 环球时报社招聘基本要求良好的政治素养和思想品德;热爱党的新闻事业,恪守新闻职业道德;遵纪守法,无不良从业记录。01人力资源岗位岗位职责1、协助开展人员招聘、考勤管理工作
  • 如何入门学平面设计?

  • SENSHEDesign森设好文分享探秘设计之森如何入门学平面设计?越来越多的年轻人开始自食其力,靠自己来获得报酬。没有躺平,只有内卷。一个没有任何工作经验的小白,应该从哪方面入手
  • DNA、RNA、PCR实验指导技巧,手把手教你做实验

  • 生科云网址:https://www.bioincloud.tech/大家在进行研究时,常常会进行比如质粒DNA的提取、甲基化检测原理及步骤、DNA的琼脂糖凝胶电泳、RNA干扰实验、原位杂交实验、普通PCR