服务粉丝

我们一直在努力
当前位置:首页 > 财经 >

产业调研:百度文心一言与GPT-4的差距有多大?

日期: 来源:计算机文艺复兴收集编辑:国君计算机

产业调研系列

近期我们有幸邀请到产业一线专家为我们解读人工智能行业的产业进展,现分享如下:


Q:ChatGPT及GPT4未来有哪些典型的应用范围、使用场景,目前有什么样的进展,能否给我们分享一下?

A:openAI这边对GPT模型做了升级,GPT4已经上线,它跟之前的版本功能特性最大的不同是引入了图像输入机制,我们看到它的模型不仅仅可以处理文字,在图像处理上也获得了能力。


chatGPT到GPT4上面也做了很多商业改良,特别是安全特性,引入了基于安全的强化学习反馈,它更难通过越狱的方式回答一些有风险的问题。所以GPT4在跨模态、安全性上面有了增强。


我们也看到国内厂商百度也推出了类似的产品,叫做文心一言,它是基于文心大模型上面做的对话增强的版本。它有自己的特色,在中文理解上优于GPT模型。前几天我们也看到了百度发布会上面的demo,一个是对中文语义理解,尤其是古诗词和成语理解。另外是跨模态方面,除了整合图像以外,也整合了视频和声音,也是朝着跨模态的方向发展。


我们也看到其他的头部厂商,比如谷歌等厂商,也有对应的进展。


从应用角度出发,我们是这样看的。首先看官方的几个演示,GPT4发布的时候给了几个官方的演示,比如第一个应用演示了一个视觉辅助的案例,结合了手机图像拍摄和对图片语义的理解,可以提供盲人辅助的功能,可以通过手机对于环境拍摄,告诉盲人现场环境是什么样的。


官方提供了两个教育方面的案例,一个是多邻国的案例,另外一个是可汗学院的案例。对互联网的比较熟悉的可能会知道,可汗学院也是在互联网领域比较著名的在线的课程网站,它可以提供一个根据个人的个性化的辅导。比如说每个人在学习过程中可能会遇到不同的问题,第一次与这些用户去做一个个性化的合作之后,那么用户可以以这种自然语言的方式向模型提问,向他去询问在某一些课程学习过程中遇到的问题和难点,模型可能会给出建议,那么这是教学类的一个应用。


第三个类别应用,我们看到结合自然语言处理以及对文档信息的抓取,可以提供在线的一些企业内部的文档信息的搜索以及问答,它更多的有点像一个搜索内部版本。


当然这一块应用的话是我们在传统的NLP里面是也会见到,但是大模型引入之后,可以让用户对企业内部的文档的检索,它的用户体验会变得更加好,它更加可以以一种自然语言的方式来完成企业内部的文档的检索。同时对于企业来说的话,也可以通过把内部文档信息通过NLP的模型做抽取,然后形成自己内部的一个企业知识库。


那么刚才我们讲到的案例,然后其实分了3个方向,它是在GPT-4发布之后OpenAI这边给出的三个方向,分别是对视觉,然后对教育,然后对像办公OA这类内容。


第二个我们来看一下文心一言。我们在16号的时候我们也看到了在线的一个发布。那么这个发布在官方的部分,我们也看到它的一些特色应用,比如说它给到了在文字真实内容的上的一些展示,第一块的话展示了对小说扩写,以《三体》这部科幻小说为例,那么然后分析《三体》小说作者,然后分析《三体》小说主干。同时的话在线演示了如何利用文心一言的NLP大模型,然后对这样一个小说去做相应的内容扩写,整个演示相对来说我们看起来还是比较流畅的,从整体上来看。


第二块的话展示了它的一个推算功能,其实我们看到的有一个其中的亮点是什么?做了一道这样的问题,就是鸡兔同笼问题,其实这样的问题我们现在看起来很简单,其实在如果我们去测试ChatGPT也好,GPT-4也好,包含文心一言也好,其实有可能模型会出现一些错误的计算,虽然看起来是一个很简单的一道数学题,在个案里边的话我们发现因为文心这个模型从它技术架构上来说,它引入了这种知识图谱的技术,就可以对一些事实性的问题做一些分析。


我们会看到它其实做了两个演示,第一个演示是,这个方程出了之后系统告诉他是无解的,为什么?虽然他可以解出方程,但是如果对方程求解之后,你可能会发现解是小数,可能是与事实不符的,因为动物是整数的,所以我们会发现我们的这种NLP的模型具有了一定的对事实问题的判断能力。比如说即使方程可以有解,但是这样的一个解与事实是不是相符的,比如说动物如果是1.5只这样的问题,这个部分也是在推理能力上这种模型的一个特点和加强。


除了内容生成和推算以外,另外我们也看到了它也有几块应用包含内容理解,可以用来提取一些综合信息,以及最后的一个演示的多模态。其实多模态部分的话应该算是在发布会的一个亮点,因为我们可以看到它除了能够利用自然语言输入方式快速生成图片以外,同时它还能够基于ttv的技术,就是text to video文本到视频转换技术,能够快速的去生成这样的影像。


而且根据发布会解释,其实百度已经用到了百度的百家号的系统后台,那么这样效率可以大大的提升,类似于像短视频创作等等这种。甚至可以进一步根据文字快速以这种机器人、无人化的方式生成大量的数字化视频,来提高视频制作效率,这也是我们在发布会中看到一个亮点。然后除了这个以外,结合自然语言的声音合成技术,可以去合成一些类似于普通话和方言这种能力,也是一些蛮有意思的 Demo。


从应用角度来看的话,我们也看到最近百度在官方也有很多的合作伙伴宣称已经接入了文心一言了,那么也去分析一下这样的合作伙伴大体上可能会有那么几类。


第一类,如果大家对自然语言处理这个领域是比较熟悉和了解的话,那么我们会知道其实在传统自然语言处理这个领域里边,绝大多数商业订单是来源于语义理解的。那么语义理解的一个最大用户是什么?像金融、证券、保险这一类的行业企业,那么他们会利用自然语言处理的方式做什么?就是做各种比如合同的审核,比如保险的保单的审核,比如说个人去提交要申请的贷款,可能需要提交个人征信资质。那么以前这些审核都是要靠人的,那么NLP模型可以快速的对你提交资料去做个预审核,然后发现其中的异常,然后打回。这样的话就可以大大节省和降低后台的人工审核团队的工作量,所以我们也会看到跟百度签约的公司里面还有比较多的传统的金融软件供应商,他们也都是有一定的NLP的开发能力,所以他们会利用这种方式来迭代自己的应用。


还有一类的话我们也看到金融这些业务以外,还有一些传统的这种 ERP或者OA等管理系统厂商接入了。那么这些接入很明显就是因为大模型它会降低自然语言处理模型的开发成本。那就意味着随着这种大模型技术维度和这种模型制作成本下降,可以让企业内部的这种原来在金融行业的能力,比如说迁移到一些to B端的工业,或者说一些商业场合,比如订单的审核,出货单的审核等等,类似于这种审核产品,也可以去完成相应的一些内容生成工作。


这部分的话我们是看到了,从金融行业,然后再到一般的商业企业, NLP的业务范围有相应的拓展。那么除了传统的做NLP应用以外,也会看到新兴业务,像一些客服系统供应商,通过这种自然语言的处理方式可以提高用户体验。比如我们都知道语音客服,以前可能是采用了标准化的语音客服,这种自然语言去帮助客户介入的话,那么这种用户与机器人的交互就会变得更加的流畅,然后会越来越感觉对方可能是一个人,这样体验会更加好。


那么这方面应用的话,我们也看到像客服系统,然后元宇宙的系统,游戏NPC的系统,还有像一些数字人的系统,这些无一例外都有可能会用在对话上。然后除了语言对话以外,我们还看到了一些教育的用户,那么这一类软件的用户的开发者,他们可能会集中一些聚焦的方向,像文章的批改,写作的扩写,因为我们也看到之前在百度官网上它也提供了像这样的一些在线教育的demo和样例,比如说学生需要去做一个作文的写作,可以通过NLP的这样语言模型方式给他提供一些相应的素材,或者说是四六级考试要去对一篇英文的作文做批改,那么也可以使用这种方式来完成对文章的批改,然后是语法的校准,内容的扩写,或者说是文章的改写等等这样一些工作,这一类就是我们说的流程类,是用内容生成的这样一些应用。大概在传统的NLP业务领域的话,我们能看到这些应用场景。


另外我们还发现在跨模态应用里面,也有一些原来不是NLP这个领域里边的企业,开始去尝试着做接入。可能会包含这几块:一类可能是与创意相关的,比如说像一些广告商或者一些图库商。因为我们知道像广告商它其实有大量做文字或者是图像的一些初始化任务的,那么结合aigc这种应用,它可以快速把一些广告的需求通过模型生成大段的文字,然后通过大段文字,产生一些比较原始的这种广告的创意,那么这样就可以辅助一些初级的广告人员去生成一些创意,然后满足他未来的这种业务的需求。


也看到有些这样的服务商,在这种aigc技术引入之后,它可以利用这种NLP的大模型,再结合着文转图的模型,然后去生成满足某一些业务场景的图,然后销售给他的终端。那么这样的话它的模式就是从以前可能是它的大头是摄影师或者美术工作者,然后转换到了 AI,这样他可以获得一些新的素材来源等等。


同样我们也看到在一些二次元的设计公司等等,也有这样的一些应用。所以整体上来看的话,我们会看到类似于像这种跨模态应用,无论是GPT-4也好,或者说是文心一言模型也好的话,除了传统的NLP应用以外,也会产生比较多的一些新兴应用场景。


Q:第二个问题就是说大家也非常关注百度的大模型跟GPT-4的技术差距大概有多大,比如说多长时间能够达到今天的GPT-4的一个技术水平?未来咱们国内有很多公司他宣布接入了百度文心一言的模型,它的这种接入能不能带来像GPT-4这样的这种生产力的提升,您是怎么看差距的?

A:我这边来解释一下,我们可能要从两个部分来看,第一的话我们直接以当前GPT-4的版本和文心一言相比的话,文心一言它是一个刚刚发布的版本,而且还是在测试阶段,那么很明显它在很多功能上和GPT-4是有差距的。


但是我们往后看,我们主要去看几块东西,第一块的话它的根源是什么?首先第一块,目前在NLP这个领域,其实经过这几年发展,大家统一都已经把技术切换到了transformer这个模型。这里大大体上我来讲一下自然语言处理的发展过程。


最早做自然语言处理的话,无一例外大家首先想到的就是叫做语法分析,所以这个时候的话在我们使用到像神经网这类技术之前,那么用语法分析的技术去做这样的自然语言处理也是行业主流,就是说我们去设计一套完美的语法方向,然后可以对各种句子做分析,然后之后就要做处理,生成我们想要的一些内容。


但是我们会发现随着这种语料越来越复杂,单纯的语法分析已经很难去做这样的一些句子的,因为你很难去涉及到一个通用的语法框架来满足各种自然语言应用。


于是这个时候正好神经网络开始兴起了,神经网络兴起之后的话,一个典型的应用就是类似于像猫狗识别,这个时候的话,于是就有在原来做自然语言处理的这些人,他也尝试说我是不是能够用神经网络这个技术。那么传统神经网络它通常是用在做一些图像处理的,比如说猫狗识别这种应用,但是你如果直接把一个文字当做一个数据丢到这样神经网络里面去,我们发现说它的效果是并不好的。


因为神经网络使用的是叫CNN的卷积神经网络,卷积神经网络它的输入是没有顺序性的,比如说你要去做到猫狗识别,你先丢一张猫和先丢一张狗的照片到神经网络里面去,它是没有任何区别的,但是语言是不一样的,语言它是有顺序性的。


比如说我举个例子,比如说“This is an apple.”“Is this an apple?”这2个句子,它其实是由完全相同的5个词构成的,这个时候的话你如果只是单纯的丢单词进去,那么神经网络是没法去对这个做处理的,于是我们发现说单纯用CNN这种模型去做,没法做。这个时候的话有人提出来一个新的结构出来用RNN模型,所以在RNN它是这样的,它考虑到了一个句子前后语序的一个权重,就是说越接近于我新输入的词语,比如“This is an apple.”,当我新输入apple的时候,我认为 apple是最重要的,然后越往前,越早的句子越来越不重要,所以这个就是RNN。


RNN大家发现导入之后它的效果非常好,它会在很多层面上可以取代原来语法分析所说的那套应用,于是慢慢的RNN就开始在自然语言处理里边去引入了,这个时候神经网络已经开始流行起来了。


那么随着这种RNN网络慢慢的引入,大家反映说我们还需要进一步的改善,为什么?虽然RNN的一个思想就是说越新获得的信息越重要,越旧的信息越不重要,但是句子还是有些复杂性的。


我再举个例子,比如说 The book which on the desk is mine。那么我看这个句子的话,其实它的重点是“the book is mine”中间表示状态的部分实际上是句子的从属对吧?那么如果按照之前的RNN逻辑越靠近越重要的话,可能会把以前的book丢掉,于是从RNN网络开始,然后业界又开始考虑又引入一个新的技术,就是说句子是有重要和不重要的标志分的,那么我们把重要的记下来不重要的地方我们慢慢可以让他先忘记。


于是就有一个叫做LSTM叫长短记忆网络,它的原理就是比如说the book当你输入的时候,他认为是需要被重点记住的,which on the desk就是这个句子可能不是很重要的,就是让它权重变低一点,最后is mine又很重要,所以这样他就通过对记忆性的调整,然后就可以加深对一个稍微长的句子理解,那么RNN可以只能用于短句,到LSTM引入的话,那么整个自然语言又得到了进一步的发展。


但是LSTM处理长句是可以的,但是他在处理一个更长的篇章结构的时候,还是不够理想,是当然谷歌后来提出了新的叫做transformer,transformer它采用叫做注意力机制,注意力机制就有点像人去看书,一方面你关注的点它会重点记住,同时它还会通篇就记住就是说您所看到的这篇文章上下文的一个基本的概念,就像我们读本书一样的,我虽然记不住整本书的内容,整本书的每个句子,但是我们可能对整本书大体上的一个想法和思路是了解的。那么transformer这个模型也是采用这种方式,我们发现说transformer这个模型做起来,它可以满足目前几乎市面上所有的自然语言处理需求,一时间transformer这个架构就成为了现在所有模型的主流。


那么目前无论是百度、谷歌还是OpenAI,大家都是基于transformer这个模型去做的一个不同的变体,然后去做了相关的这种自然语言应用。所以我们刚才讲到的问题关于就说是国内的厂商和国际厂商之间的一个差异,那么因为transformer架构创新已经有几年了,在这几年自然语言处理行业里边,在底层的算法架构上并没有太大的变化,所以这个部分的话我们的观点是技术架构上差异不大。


那么第二个差异大的地方是什么?我们看到从GPT-3到GPT-4这个阶段的话,它其实经过了一个GPT3.5,这时候它采用了比较多的语料,同时又引入了这种人工标准方法叫做有人反馈的强化学习,就是通过人,然后对模型里边回答的不好的问题的,通过加分机制的方式搭配一个模型,然后让模型进一步的自我迭代,然后不断的调优,那么这个就是RLHF的一个基本的原理。


那么这样基本原理的引入之后,发现它其实虽然效果很好,我们从GPT-3到ChatGPT,其实就是它最大一个特点就引入了有人反馈的强化学习,用人工标注的方式来不断的去反馈给模型,哪些问题回答好,哪些问题就回答不好,经过一个比较长时间的反馈,慢慢的模型的它的精度就得到提高了。


我们看到了这样的反馈机制其实需要时间的,如果回溯到当时chatGPT刚上线的时候,其实表现也是非常不好的,那个时候他也出现了大量的错误和混乱的回答。


但是随着就是说人工标注的持续迭代和进展,那么到目前看到的ChatGPT版本其实精度已经非常好了,所以反过头来对应到我们国内这个版本,我们也可以看到从现在版本上线到它能够完成整个模型的迭代,可能还需要一些时间,但如果经过了一段时间的强化学习反馈之后,模型精度应该就可以达到一些主流模型的要求。


我们认为从文心一言模型上线的过程来看的话,首先基础架构上国内和国外差距不大,那么在语料库差不多情况下的话,那么可能是需要一定时间的迭代,让它从测试版然后到一个能够正式上线的正式版,这中间可能需要一定的等待时间。经过等待时间之后的话,那么这些模型之间差异相对来说比较小,这基本上算是我们的一个观点。


Q:我们知道其实我们在一部分的场景里边,我们对于错误的容忍度是非常低的。深度学习加强化学习,这条路线是不是意味着在这类场景中它很难帮助AI实现商业落地?

A:我来解释一下,这个部分是这样子的,其实很多人可能会有个误解,可能大家都一直在关注在线聊天,或者让我们AI模型写文章。当然这是一个从 c端用户来说,他们可能并不是模型真正用户,或者从媒体曝光来说,这是一个比较容易让人感受到自然语言处理模型的能力的一个场景。但事实上的话大模型它真正用处其实并不是用来做聊天和内容生成的,它是做什么?它其实是作为一个开发工具而存在的,什么意思?我大概解释一下。


在传统自然语言处理的这种模型设计里边,银行和电商网站通常它有这样一个场景,比如说我们的呼叫中心或者说电商对某个商品的评论。我们可能要分析,在过去一段时间里边呼叫中心或者商品评论,用户的评论的心情到底是正向的还是负向的,比如是快乐的还是忧伤的,或者说是愤怒的等等。


那么对于这些用户心情的这种评价是非常有利于后期我们对于对这个部分的客户服务做改善的,怎么去做?当一个大型电商网站的时候,我们很难去人工一条条去看,于是我们通常会采用自然语言这个方式来去做这样一个模型的训练。怎么去做?


一般做法是我们首先要去抽取1~2万条的数据,然后对这些数据做标注,然后标注完成之后,我们把它丢到一个NLP的自然语言模型里面去做训练。然后训练完成之后,如果说指标满足的话,我们可以得到一个可以用来做语言情感分析的这样一个自然语言处理的模型。接着我们把这个模型与用户的系统做整合,这样的话就可以对我们在呼叫中心或者说电商评论上的一些评论做情感分析了,这是一个传统做法。


那么随着大模型的引入,其实整个这种AI开发的这种方式会彻底改变。怎么去做呢?大模型和传统的小模型的方式,它的最大的区别就是大模型是一个模型可以做多件事的,小模型是一个模型,只能做一件事情,什么意思?就是说当我们同样要去做这样的一个呼叫中心或者网站情感分析,我们想做的是只要少量的去抽取一些数据,比如说可能是只要抽取几十条或者说100多条数据,然后做完标注,然后再把这些标注去丢给模型,然后它会丢给大语言模型,模型会从里边通过一个叫做迁移学习的方式,生成一个小模型,然后小模型就可以用了。


那么它会带来什么好处?首先我们所需要的数据量是非常少的,根据我们现在的一般性的统计,基于大语言模型学习,然后生成小模型,这样一个迁移学习的方式,然后做这种行业应用的话,所需要的数据量只是传统的一个数据量的1/10。然后算力的话,也只要1/10的算力,就可以完成这样的一个模型训练了,然后平均的开发周期可以减少85%。


这是我们统计下的一些数据。那么基于这样的数据的话,这就是大模型在实际的行业里面,我们的大模型一个最好的最大的优点。而且大模型它本身是经过了可能迁移或者外界语言训练的,所以在这样大语料训练的情况下的话,它的小模型的精度,我们也做过一些测试评估,那么它往往基于这种大模型迁移式的小模型精准化程度通常是优于这种直接拿一些现场数据然后标注的小模型的,这是大模型带来的好处。


第二个就是说是对于整个模型的一个置信度来说,模型置信度它和我们的语言处理、视觉数据是有些差异的。比如说我们要去做视觉瑕疵检测,或者对一个环境里面的一些比如说物件做识别,有的时候我们可能要求是零过失。那么语言模型,因为语言是有些变化的,所以它在整个指标上来说,它通常传统的这种NLP模型的指标通常它会稍差于这种CV的模型,因为语言有时候可能会有比较多的变化,但是我们通过测试发现,绝大多数通过大语言模型,迁移过的小模型和我们直接用数据生成小模型相比的话,利用大语言模型迁移的小模型质量上是远优于我们传统的这种大NLP模型的。这也是为什么我们看起来大语言模型它以后会带来整个开发范式的一个变化,就是说它不再是需要花那么多的时间去完成小模型的设计了,这是它真正的价值。


Q:对于多模态大家关注点其实基本上都在于它未来的应用场景的拓展会有更大的潜力,对于模型本身来讲,多模态的输入模式会不会对模型本身的能力会有很大的帮助,或者说有更多的涌现的能力出来?

A:这个会的,我们看到多模态目前有两种做法,那么一种比较基础的做法,比如说我以那个图形和文字整合为例,那么一种做法说是我们分别有视觉类的大模型和文字类的大模型,就NLP大模型相结合,比如说我一张图先丢给某一个图生文的模型,让他去生成对这个图像的描述,接着在再用文字丢给语言NLP的大模型,让他对文字做分析,这是一种方式。


还有一种方式就是说我们直接训练一个网络,它的思路既包含语言类的数据输入,也包含图像类数据输入。我们看到的像GPT4这类的应用的话,非常明显它就采用了这样的一个混合式输入,虽然它没有公布网络架构,从这种输入方式上我们也可以想象出它里边已经包含了两个部分,一部分就是传统的这种全是多模的一个语言输入的模型结构。


另外在输入端的话,它还会有一个那种传统的CNN的结构。因为一个卷积神经网络的话,它可以用来对图像做处理,然后生成相应的一个图像的一个高维度的向量。那么结合着这样的一个文字,然后和图像的整合,我们这个模型就可以更精准的对这个图像去做描述。


那么这样的话它就会涌现出一些新的特性出来,比如说其实我们看在这次公开给了官方的技术报告里面,和他的DEMO里面,我们就看到了一些,比如说它有一个场景是给了一篇物理的考卷,然后他通过对考卷的文字和对考卷上的图像的理解,综合分析,然后他就可以对考卷做这样的一个问卷的回答。那么像这种模式的话就是传统的这种单一用两个模型串联的方式把他去完成的,所以这个是当我们把图像和文字同时纳入进来的话,那么就会产生一些新的特性和应用。


同时另外一个例子就是我们对图像上的一些异常行为的辨别,比如说他给到了一个异常行为是有一个人,然后在一辆出租车上,然后拿着熨烫板烫衣服,然后你问模型的话,这件这张照片上有一些什么样的有趣的事情,可能他会告诉你哪里的发现是和正常的生活现状是不一样的,那么这些内容也都是通过像这种图像语言对的训练来获得的。


所以随着这种内容深入的话,我们整个模型会涌现出更多的一些新的特性出来。那么当然了这种图像和语言训练就是结合的这种图像处理的模型,也意味着这个模型的体积也会变得更大,然后模型的这种算力需求也要比纯语言的模型也会变得更大。


当然有可能我们会看到就是说在一个大的模型训练完了,后期可以通过一些算法优化来降低这样的一些算力需求,在整体趋势上的话对算力的要求增加。

对于能力的涌现,其实是蛮有意思的一个话题,因为根据我们很多的研究发现说,因为我们也看到比如说有的模型它可以做数学题,可以做推理,然后可以扮演各种角色,其实这种能力涌现,它都是来自于大量的语料素材训练的,有这些能力,我们看到GPT它可以做的任务,这些任务它并不是事先被设计出来,而是随着你语料的增多,它自然而然的会出现一些新的科技出来,这就是我们讲的涌现。那么随着这种从语言类的素材再到了这种图文素材引入的话,那么我相信模型会涌现出一些新的有意思的科技出来。


Q:怎么看A100和800在大模型训练方面效果差距?算力会不会成为各大厂商的一个核心的差异,或者说甚至影响国内大模型发展的因素?

A:在一定程度上会成为一个影响因素,但是影响因素并没有想象中那么大。


首先说是当然本身在一段时间内的话,其实国内有很多厂商也也有足够多的算力卡来去做这些事情。


另外的话单纯我们来看大模型应用的话,其实并不是非常多的企业都能够去做这些大模型应用的,因为到做大模型的话它得要有素材、要有人要有专利。而能够去做这一方面应用的人的话,对企业来说通常也就是IT行业里面一些头部厂商,这些头部厂商本身它就有足够多算力来支撑这些应用。那么这种算力的限制,在一定程度上有可能会导致这种在短期内一些比较先进的算力硬件受限制,比方说采购。但从长期上看的话,我们也可以关注到为了解决这个问题的话,其实国内市场已经开始准备了一些相应的应对策略了。


以百度为例,我们也看到了百度它已经宣告了在明年初他们会引入自己的芯片叫昆仑3。如果接触过百度昆仑芯产品线的人,可能会知道百度昆仑之前它主要是做的是推理的应用,那么学习绝大多数还是运行在像英伟达之类的算力卡上的。那么目前类似于像百度这样的企业也开始去做自己的学习用的算力卡,从官方网站上看到数据也有发现,就是说那么新一代的昆仑3的算力卡,它主要就会聚焦于学习,以满足这种因为高端卡被禁然后导致可能有些算力没法持续支撑和扩展的这种情况。


除了百度以外,国内有些其他的半导体商也开始去往这个领域去发展,因为AI算力卡的结构其实相对来说要比那个传统的CPU它的结构来得更加简单,因为它主要是采用多个相同的计算单元,然后去完成这种矩阵类的运算,所以本身这类算力卡对整个结构的设计或者说是本身芯片设计的难度是要比传统的这种CPU来的低的。所以我们也看到说在短期内的话也有蛮多的企业开始参与到这方面的产品设计里面来。


所以从一个可以预见的未来来看的话,虽然短期里面,对于这种高端商业卡,因为中美贸易摩擦被禁可能会影响到国内厂商它短期的一些算力增长幅度。但是从长期上来看的话,随着这个部分的一个国产化的提升,那么整个算力卡在性价比上面,还有算力的节约上面的话,可能会在后期打平这样的一些海外竞品,大概是这样的情况。


Q:未来制约国内大模型发展的因素,还会不会有其他的因素,比如说数据的清洗难度会不会成为一个掣肘?

A:从整个数据质量来上来说的话,的确中文语言的语料质量其实是略微的弱于西文语料的,因为中国互联网发展是晚于像欧美这些国家和地区的,同样的对于一些比较比较更早期的一些资料的话,其实在整个中文语言世界,整个语料数据的话其实是的确是要少于西方的英文语料世界。当然这个其实可以通过一定程度上来改善,因为我们都知道语言是可以通过翻译机制转换的。


那么通过翻译的机制,我们可以对我们的这种英语资料的这种素材,然后做转换,然后转换成转换中文,然后满足相应的一些行业素材的一些训练要求。这种转换其实我们也看到我们也看到像GPT的报告里面,我们可以看到很明显一点。如果大家去看GPT4最新发布的这一版里面,其实就可以看到说他们也去做了这样的尝试,在他们的这种多语言的测试里边的话,他除了去做英语的测试以外,那么他也利用了这样的语言转换机制,然后去做了这种其他语言的测试。就是说它原始的测试题目都是英文,但是我通过英语然后转移成其他国家的语言,然后对这些其他国家语言测试之后发现说,随着我这种大量的多国语言的这种素材的训练,那么其实整个模型在整个对于其他的这种非英语的语系里边的话,整个模型的性能也是得到提升的。


那么这种提升的话,它可以随着这种数据输入的标准化,然后数据的迭代,然后逐步的让这两部分的差异会越来越小。所以我们来看的话,虽然中文语料可能它在质量上稍微稍微弱于像欧美的这样一个环境,但是这种跨语言技术的发展,它其实是可以在一定程度上弥补了这样的差异。其实我们也看到像百度他也提出了他们有一个叫做像ERNIE-M这样的模型,ERNIE-M的话专门用来去做这样一个多语言的环境下的这种语料的转换。


Q:GPT4可以用千分之一甚至万分之一的算力资源去实现对于模型的部分效果的预测,怎么看对模型效果的预测的意义?

A:这里边是有几块东西的意义,第一的话对于模型效果预测,那就意味着说我们在很多时候,特别是对开发人员来说,特别是他在做一些探索性的研究的时候,他没有必要去从头开始做一次模型的训练。


当语料到一个万亿的时候,万亿的语料和做一个万条的语料它是有差别的。比如说你做1万条或者说1亿条语料的一个学习,其实这个时候你其实并不是特别关心训练时间,或者说最后的某些指标,可以稍微有一些等待就可以拿到模型的结果。


但是当我们的语料达到了一个万亿以上的时候的话,这个时候必然要对模型的性能先做一些先预测,这样的话我们就可以知道说有些改进是不是能够带来这样一些模型质量的提升。当我发现说可以在比如说性能或者指标,或者说在一些参数上能够再提升的时候,再把这件事情然后下发到整个训练,然后下发和落实到一个完整的模型训练上去,这样的话就可以大大提升整个开发的效率。


第二个环节是问到一个安全性的问题,实际上这是ChatGPT到GPT4的一个最大的改进。那么这个模型我们都知道,随着像微软这类的商业用户开始把 GPT这个模型用于一个实际的作业场景。那么这个时候的话防止用户因为一些意外越狱等等方式,或者有意或者无意的方式让模型去输出一些非法内容。那么对于一个商业用户来说显得非常重要了,所以我们也看到在报告中他花了非常多的篇幅和时间,然后去做了这种安全性的一个训练。


同时在RLHF机制里边的话,它引入一个新的安全性的反馈。这个反馈也是基于它的一个新的特性,那么这一类的话也代表了说 OpenAI这家公司它从原本一个DEMO,然后开始在一定程度上的话,他走向了这样一个商业化过程,因为它为了商业化的话,这是整个模型的安全性是它需要走的一个部分,所以综合考虑的话,无论是这种预测还是安全性的话,都是要满足后续的一些商业性开发的一些管理或者说是指标或者评价要求的。


Q:目前海外有没有什么大模型通过迁移学习去应用到其他场景,比如说CV等等一些案例?

A:迁移学习在整个行业里边的话,目前还是属于比较新兴的应用,那么通过通过迁移学习直接去做一些cv运用。目前我们来看,比如说像一些文生图的模型,类似这种跨模态,或者说是图生文的模型这部分的话,我们的确看到了有些迁移类型的应用,但是另外在一些通用的模型里边,比如说像人像识别、图像识别、OCR识别,这个部分的话也有一些这种大规模语料训练模型,那么它做一些裁剪,也有利用这种迁移学习的方式去做这样的小规模应用的,这是我们有看到的。


但这里我需要提出一点说,这里边的大模型的概念和我们讲到的NLP的大模型概念其实有差异的。因为我们讲到传统的就是大模型,其实是一个模型可以做多件事情,小模型是一个模型可以做一件事情。在 CV这个领域的话,目前还并没有一个非常通用的范式,让一个模型可以对所有的这种影像资料去做这种内化式的学习,我们也叫做先验知识。


所以通常来说它的做法是先去针对某一个细分领域去做一个大规模数据的模型,这个时候的大它其实是数据集很大,比如说像人脸识别 、OCR识别,或者说我们在自动驾驶领域的这样的一些环境识别等等,那么它先有了一个这样大量的素材的标注,然后序列然后可以获得一个规模比较大的模型。


然后这个规模比较大的模型之后,因为我们会看到说这种大规模模型如果要去落地的话,在应用的现场它其实通常算力是有限的。它不可能提供像服务器这样的算力现场,它通常是一些高性能的算力卡,这时候它需要用迁移学习的方式或者说知识蒸馏或者剪枝裁剪方式,然后对一样的模型去做一个裁剪,然后之后变成一个小模型,然后可以让他满足放到一些嵌入设备上面去,像这种模式我们看到比如说在自动驾驶,或者说在一些3D消费电子等等其实都是有一些比较明显应用的,我举个例子,比如说在消费电子里面有个典型例子,比如说往前我们看到可以通过一个光学识别方式去扫一段文字,然后它可能会对文字做一个的自动识别,然后通过这样的方式认出文字,然后再通过小的模型,然后通过比如说扫到英文,然后把它转移成中文等等。


Q:那么像这种类型应用,如果你完全通过互联网的方式去做,必须要消耗大量的网络传输,但是如果在网络不好的情况怎么去做?

A:那么厂商的一个典型说法就是去除了提供一个互联网的实时访问和交互以外,那么当网络不存在的时候,他们会去利用裁剪的方式生成一个比较小规模的这种视觉的模型来完成各种这种文字识别或者说是内容识别。然后再通过这种小规模的模型拿去完成这种翻译工作等等,那么这些所谓的我们讲到的像CV这种模型在这种小规模场景下的一些应用。


Q:使用大模型迁移生成小模型,相对于小模型精调模式需要的数据其实可能是之前的1/10,是不是意味着数据标注相应的需求会有波动,大小模型的模式对于传统的一些做语音或者图像的公司会有什么样的影响?

A:如果利用大模型来迁移资源小模型的话,它会大大节省我们整个模型开发时间,特别是在NLP这个领域里边,然后原来的NLP我们也是做要标注的,特别是自然语言处理这种类型的标准化,它可以大大减少这种标准量。


当然我们另外一个部分也可以也要关注一点,就是对于标注的公司,其实他们的效益在提升,什么意思呢?我可以举一个自动驾驶例子,自动驾驶从0-1开始的时候的话,其实是没有任何数据的,这个时候如果要去做标注的话,其实是一个标注,一天可能只能标几十张图片,因为它需要图片上的比如说道路,然后树木、人员、交通等各个地方,它都是要使用剪切的方式,然后做个精细的框选。


那么随着这种标注的增加,比如说一个标注团队标注了几百张到几千张之后的话,其实就可以生成一个初始化的模型,然后把一些能够非常明显识别的大件做初始化模型的话,就会快速在图像上一些明显能够标注的区域做标注,这个时候的话这种智能标注引入后一个操作员,可能从开始他对整个画面上100%的物体做标注,然后可能会减少到只要标50%,40%。一直到最后的话,当这个模型越来越完善之后的话,最后他可能99%的图像都不要标注了,人就只找出一个审核就好了。


从一开始可能一个人只要标注几张图片,然后到一天一个人可能可完成几万张图片的标注,所以这个部分就是说不仅仅是说模型的迭代,然后可以去降低这种标注公司或者标注基地的这种人效同时提升一个人的产出,同时本身标注技术的这种AI模型迭代,其实也可以大大的来提升这样一个人的人效。


从一个中期或者长期来看的话,就是说随着这种标注行业标注性能的提升,特别是一些行业数据级的慢慢的增长和丰富之后的话,那么对于整个标注行业来说的话,一个人的标注效率其实它会得到就是说是成倍的提升的。


Q:大模型需要算力,算法和数据,只有大厂能做吗?如果这个模型迁移本身是可能的话,小厂是不是也可以做了?因为如果他只要是算法做得好的话,他算力和数据的要求就没有那么高了,小厂有没有可能性?

A:大模型的产业带来的就是说整个开发格局的变化,什么意思?我们我们现在行业里面有个说法,大模型它可能会变成一种比较战略性的工具。因为大模型的制作需要大量算力人员和数据,那么随着这种资源它可能只会被大企业占有,而且它的这种模型就越来越高的话,那么中小企业的进入门槛变得非常高,所以很难有一些新兴的公司进入这个行业。


但是他们可以做什么事情,他们可以依附于这些企业的大模型做自己的行业应用,所以最后的趋势就会变成说大公司越来越倾向于做更大规模的模型,然后同时培养自己的生态。然后自己的生态利用自己的大模型进行数据迁移,这时这种方式生成能够满足某些行业应用的小模型或者行业应用的一些业务软件,那么这个时候的话这些小企业的话,它只要专注于自己的业务场景就好了。


当然这些中小规模公司它也可以去做自己的模型,那么因为基于大模型去做小模型的话,这种效率非常高的。所以说整个趋势会变成大模型,做大模型的企业会越来越少,但是从事AI这种模型开发的生态可能会逐渐的增加,但是这些生态都会跟着这些大模型投入企业去做相应的一些模型的调试优化和行业落地工作,这个可能是未来整个大模型产业的一个格局的变化。


Q:专家您也就是说小厂还得依赖于大厂的大模型,然后再做模型迁移,它没法独立的开发是吧?

A:对的,如果说他自己去独立的去开发一套大模型的话,成本是非常高的,但是如果他去做一个迁移的话,刚才讲到了,比如说他想去做一个比如说用户论坛评论的分析,或者说他想去做一个关于报纸杂志的摘要提取,那么他只要少量的数据就可以去完成这个模型的建立了。这种类型的工作,我们讲到了所需要的算力可能只是原来他自己从头做算力大概1/10或者是1%。这种在这样的一个开发模式下的话,很明显没有人会愿意从头去做这样一个完全说是从0开始的这样一个训练的,我只要通过迁移的方式就可以完成了。这就是为什么大模型这种模式,它会改变未来这种AI软件的发展方式。


Q:就是说如果模型迁移的话,还需要原来大的模型,然后进行全面的数据的训练,还有算法训练,还需要从头开始做,然后才能做到迁移是吧?就不能直接做模型迁移?

A:是可以直接做。我解释一下什么叫模型的迁移,模型迁移就是说首先头部厂商它会提供一个大模型,大模型它可以做各种各样应用,比如说可以做情感分析、语音识别或者对话生成等等。


这个时候如果有一家企业它有一个软件公司,它要去做一个应用,是用来做对话分析的,他所需要做的是什么?他只要拿少量数据,然后丢给大模型,然后大模型就可以迁移出一个满足他分析要求的小模型,这个就是我们讲到的模型的一个知识迁移。


那么这种迁移的方式的话,对于软件开发公司来说,它并不需要去拥有大模型,他只要拥有了客户的数据就好了,然后那么这样一个小模型的产生,它是依附于大模型的。


Q:原来在垂类里边用自然语言 NLP模型对于上下文相关性的判断等,没有大模型做的好?

A:是的,因为大模型其实它里边通过万亿的一个这种语料的训练,它可以获得很多先验的知识,这种基于先验知识迁移出来的小模型和直接通过少量数据标出来的这种小模型相比的话,我们很多地方做过测试,通常质量都是优于一般传统的NLP的模型的。


Q:百度文心一言就是3月16号发布的,相当于GPT的什么版本呢?您觉得它的现在的商业应用的前景,就是说马上能商业应用吗?还是需要等到下一个版本迭代?

A:现在其实还是在一个公测阶段,公测阶段的话其实在架构上来说,我来解释一下,其实目前来说 GPT3,然后3.5和4,在架构上几乎没有什么太大差别,但是4多引入了一个图像的多模态的能力。


百度的文心一言,当然它在整个架构上也一样的,也是基于Transformer这个架构的,其实国内和国外无论是百度、谷歌还是OpenAI这几家厂商,它的这些模型架构本身没有什么太大的差别,几乎是一样的,都是基于Transformer这个模型的一个变体。


百度做了ERINE的变体,然后OpenAI它做一个GPT的变体,但是这些变体本质上差异并不大,尤其是在大语料的一个训练下的话,原来如果小语料训练一下的话,过谷歌所有的模型变形比较适合做这种语音理解,然后这种OpenAI的变体它比较适合做内容生产,但是这种差异是在少量语料数据的时候它才有这种差异,当你的语料达到了一个万级之后的话,那么这种差异几乎已经已经小到可以忽略不计了,所以是这样的,所以基本上来说基于像Transformer这个模型去做的这样一些大模型的一些架构,它本质上差异并不大。所以,没有什么太多代际的差异。


那么差异是什么?GPT4很有意思,它虽然版本比ChatGPT更新,但是他训练了非常长时间,他的语料当时是截止到去年9月份,也就是从9月份一直到现在,就是说它才完成了整个模型的测试,其实还是花了比较多时间的。


说文心一言刚开始上线的时候,基本上我可以往前回溯到当时GPT最早一代版本上线的时候,因为GPT第一个版本上线之后也是也是其实得到了很多这种反馈,比如说各种异常,然后他对很多问题都会给出一些莫名其妙的回答,但是随着一轮的反馈和这种迭代优化之后,慢慢的我们就发现说这种问题会越来越少。


文心一言这个模型其实也是要经过一个同样路径,就是说它会通过一段时间的用户的公测,然后反馈。然后通过这样一个反馈机制,然后继续调用模型,这样的话模型的精度就会有一个爬升,大体是这样一个情况。


合规声明:本文节选自正式入库研究报告及国君计算机专家电话会议纪要,属于公开资料,如需全文PDF请后台留言。

  - end -  


欢迎加入行业交流群!

欢迎所有对计算机产业研究和投资感兴趣的盆友(包括云计算、网络安全、医疗IT、金融科技、人工智能、自动驾驶等)后台留言加入我们的行业交流群。我们的目标是建立系统的计算机产业研究框架,提高整个A股的IT行业研究水平,减少韭菜数量,普度众生。


ChatGPT相关报告

ChatGPT研究框架(80页PPT)

产业调研:一线专家眼中的ChatGPT

产业调研:医疗认知智能技术进展

海外ChatGPT公司有哪些已经落地的商业模式(深度)

Open AI发布GPT-4,超预期还是低于预期?

百度文心一言发布会详细纪要



文章推荐

相关阅读

  • 230319 人工智能360 周鸿祎交流

  • Q:上游哪些场景很关键?A:算力不是最关键的问题,场景和数据是关键。我们二线队伍,账上200多亿人民币,之前国家搞了很多超算中心,没事情干,现在发现配了GPU就有东西看。Transformer算
  • 新事物

  • 周五,东财发布年报,2022年的营收和净利润仅小幅下降。这在券商同行中,属于非常强的存在。比如财富管理做的不错的东方证券,2022年的业绩就下滑比较多。等其它券商公布年报,我们应
  • ChatGPT会否替代股票分析师?

  • 点击蓝字 关注我们引 言ChatGPT刚刚一问世,就惊艳了世界。大家纷纷惊呼,人工智能的大时代要来了。我们做投资的也很好奇,ChatGPT这样的人工智能技术,对我们投资有什么样的帮助?特
  • 文心一言:难以理解上下文,及一个猜测

  • 在针对单个问题回答时,文心一言是表现不错的。不过有朋友提出了质疑:第一个是:如果按照同样的问题,在百度搜索上检索也能得到,那这个是不是意义就小多了?第二个是:文心一言似乎对上
  • 大力出奇迹的LLM模型

  • 周末一大早,睡眼惺忪的时候,就被学妹拉到了她的中科院校友会兴趣群里。博士、科学家们创建了个GPT兴趣群,学妹知道我现在正在夜以继日的试图跟上AI的进化,顺手拉了我一把。
  • 大白话聊 ChatGPT 播客发布了,欢迎收听

  • 上一周我和 Sarah 一起制作的播客节目《【大白话系列 #3】大白话聊 ChatGPT(Sarah & 王建硕)》已经上线了。大家可以扫码下面的二维码,在小宇宙中收听。Sarah 的问题一如既往的
  • 薇依:专注和意志

  • 西蒙娜·薇依(Simone Weil,1909-1943),20世纪法国哲学家、社会活动家、神秘主义思想大师。燃读专注和意志文|薇依译 | 顾嘉琛 杜小真不理解新事物,但是由于耐心,不断地努力并讲
  • GPT-4:一场威胁人类生存的安全测试?

  • 一个全知全能的人工智能模型,是否能够利用自己的能力控制和操纵人类行为,利用代码武器获取资源,光速迭代和复制,一夜之间成为数字社会的统治力量?在大语言模型人工智能技术狂飙猛
  • 恒玄科技涨超7%,人工智能ETF(159819)开盘走高

  • 截至9:41,人工智能ETF(159819)开盘走高,现上涨0.83%,盘中成交额达3621万元,成交额持续放大。该ETF紧密跟踪中证人工智能主题指数(930713),该指数上涨0.91%。相关成分股方面,恒玄科技上

热门文章

  • “复活”半年后 京东拍拍二手杀入公益事业

  • 京东拍拍二手“复活”半年后,杀入公益事业,试图让企业捐的赠品、家庭闲置品变成实实在在的“爱心”。 把“闲置品”变爱心 6月12日,“益心一益·守护梦想每一步”2018年四

最新文章

  • 产业调研:百度文心一言与GPT-4的差距有多大?

  • 产业调研系列近期我们有幸邀请到产业一线专家为我们解读人工智能行业的产业进展,现分享如下:Q:ChatGPT及GPT4未来有哪些典型的应用范围、使用场景,目前有什么样的进展,能否给我们