导读
3月16日下午,百度文心一言大模型正式发布,会上百度CEO李彦宏主要以PPT形式介绍该产品,并展示了一段提前录制好的视频。
文心一言实际功能几何?来听听亲测后的媒体人咋说。
媒体人怎么看“国产ChatGPT”?
产品发布会上,李彦宏从文学创作、商业文案创作、数理逻辑推算、中文理解和多模态生成五个方面展示了文心一言。此外,文心一言还可以给用户反馈图像、语音和视频。
会上,李彦宏表示:“百度是全球大厂中第一个做出对标ChatGPT产品的企业。”然而,同时体验过两个产品的媒体人则有褒也有贬。
“文心一言既能准确理解人类意图,又能清晰地表达,这是基于庞大数据规模而发生的‘智能涌现’。”齐鲁晚报·齐鲁壹点战略合作事业中心主任黄广华肯定道,文心一言回答的准确性、逻辑性、流畅性都逐渐接近人类水平。
计算机报内容负责人严威川评价道:“文心一言是应中国市场需要推出的产品,但目前还没办法很好地满足市场需求,它还有很长的路要走。”
某财经媒体技术人员提到,ChatGPT早于文心一言一天发布了4.0版本,新版本展现出很强的角色扮演能力,而且模仿能力非常强。“ChatGPT4.0在多轮对话中能够记忆交互中出现过的数据并引用,不会出现上下文南辕北辙的情况,而这是文心一言不足的地方。”
“把同一个问题提给文心一言和ChatGPT,两者的答案有明显不同,文心一言的内容准确性不如ChatGPT。”新京报资深记者程子姣说到。
相较于ChatGPT,文心一言在方言转换、文生图、视频等方面似乎更有优势。对此,上述AI产品经理提到“这都是过去老的能力,只是结合到了聊天的场景中,不是新鲜的。
“个人感觉和预想的还是有一些差距。”在使用文心一言之前,封面新闻记者欧阳宏宇已经关注了ChatGPT很长时间,内测开启后他第一时间进行了文本提问、文案创作、图片生成方面的测试,内容涉及工作、娱乐、常识甚至伦理等,“一个比较明显的区别是,ChatGPT的系统性和整合性更强。”
文心一言实际能力如何?
访谈嘉宾还向传媒茶话会分享了文本、图片、数理逻辑等方面的测试结果,有些表现可圈可点。
01能基本理解文本问题并做出回答
财联社《科创板日报》记者黄心怡测试发现,文心一言的中文组织能力表现不错,能够语句通顺地完整回答。在商业文案创作能力上,文心一言能够准确地理解问题的中文含义,只是文采仍有待提高。
黄广华也表示,他在测试文心一言的过程中,发现该产品给出的答案格式规范体现专业水准。并且文心一言没有一些生成式 AI 在回答事实性问题时常有的“胡编乱造”,或用“我不知道”等回答来“摆烂”的情况。
但是,对于一些中文理解的交互,文心一言还存在偏差。
例如,向ChatGPT和文心一言同时提问“鱼香肉丝是什么鱼做的?”,ChatGPT给出的答案是“鱼香肉丝并不是鱼做的,鱼香是指酱料的调味口感”,而文心一言则回答“鱼香肉丝是鲫鱼做的”。
(ChatGPT回答)
(文心一言回答)
02图片生成能力可圈可点
3月15日,openAI发布的ChatGPT4.0版本整体提升较大,尤其是支持图像内容的输入,成为一个能够理解照片的人工智能。而文生图能力一直是百度的强项,文心一言表现如何?
黄心怡提到,对于带有关键词的简单图片,文心一言完成得还不错。并且速度极快,只需十几秒左右。
欧阳宏宇也以“中国风仙境”“江南水乡“江南女子”等关键词测试了文心一言的作图能力,文心一言交出了这样的作品。
03对中国文化的理解能力强于ChatGPT
在关于藏头诗、中国风等考验AI对中文和中国文化理解的测试中,文心一言表现不俗,在10秒左右就完成了,并实现了押韵。
小编用同样的指令测试ChatGPT,发现其并不理解藏头诗的含义。
04具有写简单代码的能力
经过测试发现,文心一言能够顺利写出一些简单的代码。
对于写出一段画椭圆形的JS脚本的要求,文心一言给出如下答案:
将此结果交给程序员检查,得到回复:粗略看上去没有问题。以后,文心一言可能是对程序员不错的辅助工具。
05多模态生成能力有所体现
根据发布会上的介绍,文心一言可以生成方言版音频、视频。这也是其明显区别于ChatGPT的地方。不少媒体人对此抱有较高期待。
经小编测试,目前,文心一言已经具备理解方言、生成方言音频的能力。
小编让文心一言用四川话讲“我要去奶奶家吃饭”。得到如下语音回答:
关于视频生成能力,由于成本较高,现阶段文心一言暂未对所有用户开放,因此无法体验。
文心一言亟待提升的几点
01信息准确性有待提高
黄心怡在测试时询问文心一言特斯拉在国内过去5个月、过去一年的销量。
文心一言提供了2022年1月、2021年12月的数据。但实际上,乘联会已经公布了2023年1月特斯拉的销量数据,销量为66051辆。
02数理逻辑推算能力仍有不足
在用鸡兔同笼这道经典题目测试文心一言时,顺利得到正确回答。
但对于其他数学题,文心一言则有失误。例如下面这道计算硬币数量的数学题,正确答案是2分27枚,5分9枚,文心一言回答错误。
03文学创作能力有待进一步提高
面对更复杂的问题或者要求时,文心一言的表现如何呢?
严威川通过命题作文的方式分别测了测文心一言和ChatGPT的文学创作能力。
他的测试结果是:“在不考虑东西文化差异的情况下,ChatGPT写得更像小说,而文心一言更像智能搜索的结果,而非‘创作’。”
小编以“为《流浪地球3》续写剧情”为主题,分别让ChatGPT和文心一言来创作,得到内容如下:
ChatGPT写的↓↓↓
文心一言写的↓↓↓
毋庸置疑,技术已经成为推进媒体深度融合的核心驱动力,期待未来智能交互机器人、AIGC、多模态大模型等能为媒体的内容生产、融合创新、智能传播、经营服务带来更强推动力。
编辑:小田