具体参见2023年3月15日报告《GPT-4发布,多模态处理+复杂推理能力有望打开应用空间——行业点评报告》,如需报告全文或数据底稿,请联系团队成员或对口销售。
投资要点
行业要闻
北京时间3月15日凌晨,OpenAI官方发布了新一代AI大模型GPT-4,模型在多模态任务、复杂问题推理领域取得重大突破,在多项人类测试中表现优异。OpenAI已在ChatGPT Plus上提供API接口供开发者构建应用和服务,标志着AI多模态化进程持续推进,商业化空间有望加速打开。
技术解读
GPT-4实现多模态任务处理能力,并在数学、物理等学科领域实现重大进步
1、GPT-4可接受图像、文本信息作为输入并生成说明文字、分类和分析,允许长文内容创建、扩展对话以及文档搜索和分析等功能;
2、GPT-4在复杂问题的推理能力上大幅超越GPT-3.5,在SAT、Bar等大多数专业测试以及相关学术基准评测中,GPT-4的分数高于GPT-3.5并超越人类平均水平;
3、GPT-4目前已对ChatGPT Plus用户开放API,收费为每1000 prompt tokens 0.12美元,而每1000 completion tokens收费为0.06美元。同时OpenAI还开源了Evals框架,以自动评估AI模型性能,允许用户报告模型中的缺点,以帮助其改进。
4、GPT-4引入了更多人类反馈数据进行训练,以改进GPT-4的行为,不断吸取现实世界使用的经验教训,并基于模型的高级推理和指令遵循能力加快模型安全性的迭代。
核心观点
GPT-4已投入实际应用,多模态趋势下商用空间有望打开
1、微软已宣布新必应(Bing)搜索引擎已接入GPT-4,未来有望将GPT-4技术嵌入到业务生态中的更多应用;
2、Duolinguo、Stripe、冰岛政府等企业、教育机构、政府已接入GPT-4,借助其能力实现不同的需求和功能;
3、多模态化将成为AI大模型发展的核心趋势,看好未来GPT模型融合音频、视频等模态数据,实现更多跨模态任务,进一步打开应用空间;
风险提示
1、AI技术迭代不及预期的风险;2、AI商业化产品发布不及预期;3、政策不确定性带来的风险;4、下游市场不确定性带来的风险;
报告正文
1 OpenAI发布GPT4大模型,多模态为核心亮点
1.1 GPT 4大模型发布,多模态任务+复杂推理实现重大突破
北京时间2023年3月15日凌晨,OpenAI官方发布了GPT-4大模型,与GPT-3、GPT-3.5模型相比,GPT-4具备了多模态功能,支持接受图像和文本输入并输出文本,我们认为随着模型的持续迭代,GPT有望在图像生成、音视频处理等跨模态任务领域上持续拓展,应用空间非常广阔。
GPT-4距离人类认知水平仍有差距,但在多项指标表现上实现重大迭代。OpenAI官方表示,GPT-4在许多现实世界场景中的能力仍不如人类,但在各种专业和学术基准上的表现已经超越了人类的平均水平。在模拟bar(美国律师执照)考试中,GPT-4测试成绩排名前10%,而此前发布的GPT-3.5仅排在后10%,除此之外,在多项不同领域的专业测试中,GPT-4能够排到非常考前的位置,在复杂问题推理上的能力表现出了显著进步。
GPT-4在图像-文字、复杂推理任务领域展现优秀能力。GPT-4可根据图像信息识别图像中包含的信息,并生成文字反馈。同时在论文理解方面,GPT-4可以智能识别论文截图中包含的文字以及图表内容并进行汇总分析,实现论文的总结归纳功能。在复杂问题推理上,GPT-4可准确解答力学题,并根据题目要求输出推理计算过程,相比于GPT-3和GPT-3.5进步显著。
OpenAI开放GPT-4 API申请渠道并开源OpenAI Evals项目,GPT-4用户生态有望快速构建。OpenAI官方宣布面向开发者开放GPT-4 API的申请通道,用户可提交申请进入waitlist等待通过,而ChatGPT Plus订阅会员可直接获得GPT-4的试用权限。与GPT-3.5类似,GPT-4模型API根据用户调用tokens数量进行收费,定价为每1000 prompt tokens 0.06美元,而每1000 completion tokens收费0.12美元。另外,OpenAI开源Evals项目,可用于自动评估AI模型性能,以便进一步优化与改进模型。
1.2 GPT- 4在多项任务环节实现重要突破,思维能力接近人类平均水平
OpenAI通过各类benchmark进行测试,GPT-4在多项测试上表现优于GPT-3.5。相比于GPT-3.5,GPT-4在物理、生物、数学等理科测试中的表现明显优于GPT-3.5,模型展现了处理复杂推理任务能力的大幅迭代。同时,GPT-4在多数测试中的成绩能够超越80%的人类应试者,反映出模型在多项人类测试上的能力已超越平均水平。
在传统的机器学习测试上,GPT-4在MMLU(大规模多任务语言理解)、HellaSwag(常识基准)、GSM-8K(数学测试)等指标上相较GPT-3.5以及之前的模型最佳结果,均有不同程度的提升。
针对GPT-3以及ChatGPT会生成与事实不符信息的问题,GPT-4实现显著优化。与GPT-3.5相比,GPT-4在历史、数学、写作等各交互场景下上生成内容拥有更好的合理性与真实性。OpenAI研究人员在论文中指出,在包含9大类话题的内容事实性评估测试中,GPT-4的准确度较GPT-3.5平均提高了19个百分点。
GPT-4基于人类反馈强化实现改进,但在复杂推理问题上已接近人类水平导致优化效果并不显著。OpenAI透露,GPT-4引入了更多人类反馈数据进行训练,以提升模型的安全性和对齐性。同时,研究人员在各项人类测试中将GPT-4基础模型(Base Model)和引入RLHF机制的模型(RLHF model)进行对比,结果显示引入RLHF后的GPT-4平均得分率为74.0%,仅比未引入的73.7%高出0.3%,也反映出GPT-4在专业性测试中的表现已经接近甚至超越人类。
1.3 新Bing已使用GPT-4模型,多模态趋势下商用空间有望打开
GPT-4性能大幅提升,海外多家企业已相继布局GPT-4应用。GPT-4在回答准确性、识图能力、歌词以及文本生成等任务能力的大幅提升,使其具备更高的商业价值和更多的应用场景。3月15日,微软副总裁兼消费者首席营销官Yusuf Mehdi发文确认了新Bing(必应)搜索引擎已运行GPT-4,而包含摩根士丹利、duolingo在内的政府及企业已布局GPT-4技术以实现多样化的功能。
我们认为,GPT-4实现了从单模态大模型到多模态大模型的重要突破,未来有望随着模型算法的加速迭代,实现对音频、视频等多模态数据的融合,完成各类跨模态任务,充分打开AI商业化应用空间。
2 风险提示
1、AI技术迭代不及预期的风险;
2、AI商业化产品发布不及预期;
3、政策不确定性带来的风险;
4、下游市场不确定性带来的风险;
固定布局
工具条上设置固定宽高
背景可以设置被包含
可以完美对齐背景图和文字
以及制作自己的模板
法律声明及风险提示