文档处理天花板！华科大成果升级了！--粉丝服务平台-粉丝头条-fensifuwu.com

文档处理天花板！华科大成果升级了！

日期： 2024-03-19 09:39:20 来源：华中科技大学收集编辑：华中科技大学

还记得几个月前

华科大的一项“黑科技”

让AI“小猴子”

也能“看图说话”吗？

最近，这只AI“小猴子”升级了！

华科大联合金山办公推出

文字多模态大模型TextMonkey

多项文档理解任务

取得国际领先

向通用文字识别迈出坚实的一步

去年底，我校软件学院白翔教授领衔的VLRLab团队发布了多模态大模型——“Monkey”。该模型能够实现对世界的“观察”，对图片进行深入的问答交流和精确描述。

据悉，多模态大模型是一类可以同时处理和整合多种感知数据的AI架构，在众多场景中表现出色。凭借其丰富的世界知识和出色的对话能力，多模态大模型能够如同人类一样深入理解和感知世界。

近日，我校和金山办公的研究人员开发的Monkey多模态大模型被人工智能领域的国际顶级会议CVPR 2024接收。这一成果还曾在Meta AI公认的国际权威“司南”多模态大模型排行榜中名列开源模型榜首，仅次于行业领先者OpenAI的GPT4V以及谷歌的Gemini等闭源模型。

国际权威的“司南”多模态大模型排行榜单

TextMonkey是Monkey在文档领域的重要升级，突破了通用文档理解能力的边界，在场景文字识别、办公文档摘要生成、数学问题问答、文档版式分析、表格理解、图表问答、电子文档关键信息抽取等12项文档权威数据集，以及在国际上规模最全的文档图像智能数据集OCRBench上取得了显著突破，通用文档理解性能大幅超越现有方法。

它，会解答数学题

TextMonkey能帮助我们

解答数学题并给出解题步骤

有助于教育自动化

TextMonkey解答数学题并给出具体步骤

它，会处理表格和文档

TextMonkey还能够帮助人们

理解结构化图表、表格

以及文档数据

通过将图像内容

转化为轻量级的数据交换格式

方便记录和提取

TextMonkey将图表自动结构化成json格式示例

它，能帮你操控手机

TextMonkey也能作为

智能手机代理

无需接触后端

仅需语音输入及屏幕截图

即能够模仿人类的点击手势

能够在手机上执行各种任务

自主操控手机应用程序

TextMonkey充当智能手机代理控制手机应用程序

TextMonkey的核心，在于它能模拟人类视觉认知的方法，这使它能自然而然地识别高清文档图像中各部分的相互关联，并灵敏地鉴别出图像内的关键要素。更进一步，基于对用户多样化需求的深入理解，TextMonkey通过文本定位技术强化了答案的准确性，提升了模型的解释性，减少了幻觉，有效提高了在处理各类文档任务上的表现。

当前，随着企业加速数字化转型，文档与图像的多模态结构化分析及内容提取显得尤为关键。无论处理的是随意拍摄的图片、电子文档、办公软件文件还是图表分析报告，快速、自动化、精确的数据处理对于提升企业的生产效率具有决定性意义。在此背景下，TextMonkey的推出为这一挑战提供了一种创新的通用解决方案，有望在办公自动化、智慧教育、智慧金融等领域率先实现技术突破，为全面提升通用文档理解能力带来曙光。

文章来源：华中科技大学官方微信公众号

编辑：杨楚帆

服务粉丝

文档处理天花板！华科大成果升级了！

文章推荐

相关阅读

ChatGPT日耗电超50万度，卡死AI发展的竟然是能源？

饿了么垂直领域大语言模型专利获授权

AI算力需求倍增，谁能练出中国版Sora？

第二届北京人工智能产业创新发展大会指出：让AI大模型真正成为新质生产力

全国政协委员张凤：构建负责任、可信赖的大模型发展生态

全国人大代表、科大讯飞刘庆峰：AI以“+”聚力，加出发展新动能

戎珂等：大模型赋能万行万业——生态型商业模式

用童话训练AI模型：微小语言模型进入成熟期

Sora背后的“王炸”团队

汇智智能：用先行探索破解大模型落地应用难题

聚合标签

热门文章

解码“新IT”的5个特征和3大价值

同款产品价差大，“双11”薅羊毛要“横跳”

《心跳文学部》是一款什么样的游戏，为什么在国内被禁？

OPPO k1的低价高配真实么？网友：不看不知道

一招教你手机无限制成为一台新设备

从零开始如何开网店

最新文章

文档处理天花板！华科大成果升级了！

“开国上将陈士榘故居”迎来山东客人

文化传递｜湖南郴州：2024年濂溪讲堂第一讲开讲

这个春天在天水重访一位诗人

黑热病，这个病你听说过吗？

警方回应邯郸初中生遇害案：有预谋作案