还记得几个月前
华科大的一项“黑科技”
让AI“小猴子”
也能“看图说话”吗?
最近,这只AI“小猴子”升级了!
华科大联合金山办公推出
文字多模态大模型TextMonkey
多项文档理解任务
取得国际领先
向通用文字识别迈出坚实的一步
去年底,我校软件学院白翔教授领衔的VLRLab团队发布了多模态大模型——“Monkey”。该模型能够实现对世界的“观察”,对图片进行深入的问答交流和精确描述。
据悉,多模态大模型是一类可以同时处理和整合多种感知数据的AI架构,在众多场景中表现出色。凭借其丰富的世界知识和出色的对话能力,多模态大模型能够如同人类一样深入理解和感知世界。
近日,我校和金山办公的研究人员开发的Monkey多模态大模型被人工智能领域的国际顶级会议CVPR 2024接收。这一成果还曾在Meta AI公认的国际权威“司南”多模态大模型排行榜中名列开源模型榜首,仅次于行业领先者OpenAI的GPT4V以及谷歌的Gemini等闭源模型。
国际权威的“司南”多模态大模型排行榜单
TextMonkey是Monkey在文档领域的重要升级,突破了通用文档理解能力的边界,在场景文字识别、办公文档摘要生成、数学问题问答、文档版式分析、表格理解、图表问答、电子文档关键信息抽取等12项文档权威数据集,以及在国际上规模最全的文档图像智能数据集OCRBench上取得了显著突破,通用文档理解性能大幅超越现有方法。
它,会解答数学题
TextMonkey能帮助我们
解答数学题并给出解题步骤
有助于教育自动化
TextMonkey解答数学题并给出具体步骤
它,会处理表格和文档
TextMonkey还能够帮助人们
理解结构化图表、表格
以及文档数据
通过将图像内容
转化为轻量级的数据交换格式
方便记录和提取
TextMonkey将图表自动结构化成json格式示例
它,能帮你操控手机
TextMonkey也能作为
智能手机代理
无需接触后端
仅需语音输入及屏幕截图
即能够模仿人类的点击手势
能够在手机上执行各种任务
自主操控手机应用程序
TextMonkey充当智能手机代理控制手机应用程序
TextMonkey的核心,在于它能模拟人类视觉认知的方法,这使它能自然而然地识别高清文档图像中各部分的相互关联,并灵敏地鉴别出图像内的关键要素。更进一步,基于对用户多样化需求的深入理解,TextMonkey通过文本定位技术强化了答案的准确性,提升了模型的解释性,减少了幻觉,有效提高了在处理各类文档任务上的表现。
当前,随着企业加速数字化转型,文档与图像的多模态结构化分析及内容提取显得尤为关键。无论处理的是随意拍摄的图片、电子文档、办公软件文件还是图表分析报告,快速、自动化、精确的数据处理对于提升企业的生产效率具有决定性意义。在此背景下,TextMonkey的推出为这一挑战提供了一种创新的通用解决方案,有望在办公自动化、智慧教育、智慧金融等领域率先实现技术突破,为全面提升通用文档理解能力带来曙光。
文章来源:华中科技大学官方微信公众号
编辑:杨楚帆