服务粉丝

我们一直在努力
当前位置:首页 > 科技 >

文档处理天花板!华科大成果升级了!

日期: 来源:华中科技大学收集编辑:华中科技大学

 还记得几个月前

华科大的一项“黑科技”

让AI“小猴子”

也能“看图说话”吗?

最近,这只AI“小猴子”升级了!

华科大联合金山办公推出

文字多模态大模型TextMonkey

多项文档理解任务

取得国际领先

向通用文字识别迈出坚实的一步

去年底,我校软件学院白翔教授领衔的VLRLab团队发布了多模态大模型——“Monkey”。该模型能够实现对世界的“观察”,对图片进行深入的问答交流和精确描述。

据悉,多模态大模型是一类可以同时处理和整合多种感知数据的AI架构,在众多场景中表现出色。凭借其丰富的世界知识和出色的对话能力,多模态大模型能够如同人类一样深入理解和感知世界。

近日,我校和金山办公的研究人员开发的Monkey多模态大模型被人工智能领域的国际顶级会议CVPR 2024接收。这一成果还曾在Meta AI公认的国际权威“司南”多模态大模型排行榜中名列开源模型榜首,仅次于行业领先者OpenAI的GPT4V以及谷歌的Gemini等闭源模型。

国际权威的“司南”多模态大模型排行榜单

TextMonkey是Monkey在文档领域的重要升级,突破了通用文档理解能力的边界,在场景文字识别、办公文档摘要生成、数学问题问答、文档版式分析、表格理解、图表问答、电子文档关键信息抽取等12项文档权威数据集,以及在国际上规模最全的文档图像智能数据集OCRBench上取得了显著突破,通用文档理解性能大幅超越现有方法

它,会解答数学题

TextMonkey能帮助我们

解答数学题并给出解题步骤

有助于教育自动化

TextMonkey解答数学题并给出具体步骤

它,会处理表格和文档

TextMonkey还能够帮助人们

理解结构化图表、表格

以及文档数据

通过将图像内容

转化为轻量级的数据交换格式

方便记录和提取

TextMonkey将图表自动结构化成json格式示例

它,能帮你操控手机

TextMonkey也能作为

智能手机代理

无需接触后端

仅需语音输入及屏幕截图

即能够模仿人类的点击手势

能够在手机上执行各种任务

自主操控手机应用程序

TextMonkey充当智能手机代理控制手机应用程序

TextMonkey的核心,在于它能模拟人类视觉认知的方法,这使它能自然而然地识别高清文档图像中各部分的相互关联,并灵敏地鉴别出图像内的关键要素。更进一步,基于对用户多样化需求的深入理解,TextMonkey通过文本定位技术强化了答案的准确性,提升了模型的解释性,减少了幻觉,有效提高了在处理各类文档任务上的表现。

当前,随着企业加速数字化转型,文档与图像的多模态结构化分析及内容提取显得尤为关键。无论处理的是随意拍摄的图片、电子文档、办公软件文件还是图表分析报告,快速、自动化、精确的数据处理对于提升企业的生产效率具有决定性意义。在此背景下,TextMonkey的推出为这一挑战提供了一种创新的通用解决方案,有望在办公自动化、智慧教育、智慧金融等领域率先实现技术突破,为全面提升通用文档理解能力带来曙光。

文章来源:华中科技大学官方微信公众号

编辑:杨楚帆

相关阅读

  • 饿了么垂直领域大语言模型专利获授权

  • 科技边角料获悉饿了么关联公司拉扎斯网络科技(上海)有限公司、浙江口碑网络技术有限公司旗下“垂直领域大语言模型的训练方法及装置、存储介质、设备”发明专利日前获得授权,有
  • AI算力需求倍增,谁能练出中国版Sora?

  • Sora和Claude3无疑是2024开年最火的AI新成就。GPT4、Sora、Claude3都与微软和OpenAI有着直接或间接的关系,但这波技术突破的最大赢家,恐怕还是提供算力的英伟达。每次大模型和
  • 用童话训练AI模型:微小语言模型进入成熟期

  • 编者按:今年初,ChatGPT引爆全球。作为以自然语言处理为核心的大型语言模型,其训练成本非常昂贵。据不准确估算,大型语言模型训练成本高达上百万美元。为解决这一困难,微软研究人
  • Sora背后的“王炸”团队

  • 霓虹闪烁的东京街头,一名红裙黑靴、戴太阳镜的时髦女子款款走来。她身后广告牌出现的位置,潮湿街道的镜面效果,墨镜中的光影,还有其脸部的肌理、雀斑,都完全符合真实的世界。这是
  • 汇智智能:用先行探索破解大模型落地应用难题

  • 人工智能大模型如何变成现实生产生活中的各种应用?这成为当下制约大模型落地的“最后一公里”。在南京,有这样一家公司,仅用半年多时间就在人工智能行业异军突起,成为国内“智能

热门文章

  • 解码“新IT”的5个特征和3大价值

  • 党的二十大报告提出,要加快发展数字经济,促进数字经济和实体经济深度融合,打造具有国际竞争力的数字产业集群。在数字经济与实体经济深度融合的产业浪潮中,以智能设备、边缘计算
  • OPPO k1的低价高配真实么?网友:不看不知道

  • 近日OPPO一款新机OPPO k1,摒弃了高价低配,就连自家老大哥r17都要怼一下。更是放弃了请代言人,以往的OPPO手机还没出来,各路流量小生,花样美男的代言就先来了。还有线下销售人员的
  • 一招教你手机无限制成为一台新设备

  • 大家平时用手机去注册app,肯定会遇到检测设备异常,交易关闭,等问题 这个都是手机已经不止1-2次注册过此app,不断更换手机仅是一个暂时的方法,却不是长久之计,手机总归会用完
  • 从零开始如何开网店

  • 随着互联网的高速发展,人们的生活发生了翻天覆地的变化,生活节奏越来越快,网购已经成为家家户户生活中离不开的一种购物方式了。网购的发展使得越来越多的人想要涉足电商事业,那

最新文章

  • 文档处理天花板!华科大成果升级了!

  • 还记得几个月前华科大的一项“黑科技”让AI“小猴子” 也能“看图说话”吗?最近,这只AI“小猴子”升级了!华科大联合金山办公推出文字多模态大模型TextMonkey多项文档理解任务
  • “开国上将陈士榘故居”迎来山东客人

  • 极目新闻记者 高伟通讯员 董玉清“山东人民十分崇敬陈士榘老将军,对将军故乡也十分眷念,都想通过红色旅游让更多的山东父老乡亲前来荆门瞻仰开国上将陈士榘故居,为老将军故里献
  • 文化传递|湖南郴州:2024年濂溪讲堂第一讲开讲

  • 郴州日报全媒体记者 陈卫3月18日下午,郴州市2024年濂溪讲堂第一讲开讲,为大家解惑、探秘屈原放逐行迹及其辞赋创作时地等。郴州历史文化底蕴厚重,历来是人文荟萃之地,屈原是中国
  • 这个春天 在天水重访一位诗人

  • 新甘肃·每日甘肃网记者 赵媛媛一碗麻辣烫,带火一座城;一碗麻辣烫,温暖一座城。天水麻辣烫天水的麻辣烫火爆出圈之后,全国各地的朋友们重新认识了这座不一样的千年古城。在这里,
  • 黑热病,这个病你听说过吗?

  • 持续高热,肝脾肿大血常规血细胞进行性减少黑热病离我们有多远血液肿瘤科专家提醒大家小虫威力大,防治需注意案例回顾4岁男孩明明(化名)持续高热2周,经多方治疗发热非但没有好转,反
  • 警方回应邯郸初中生遇害案:有预谋作案

  • 3月18日,河北邯郸肥乡区警方针对当地初中生被杀害一案接受记者采访。被害人尸检已结束河北邯郸肥乡区警方表示,案发后,肥乡区公安分局迅速启动了命案侦破机制,成立了由60多人组