全球首个！图像语音和文本相互生成，“紫东太初”获最高奖项--粉丝服务平台-粉丝头条-fensifuwu.com

全球首个！图像语音和文本相互生成，“紫东太初”获最高奖项

科技 09-04 来源：武汉晚报

武汉晚报‬讯（记者陈洁李佳通讯员涂兴佩）研究两年多，获世界最高奖，多项技术全球首创……近日，在2022世界人工智能大会开幕式上，由中科院自动化所、华为与武汉人工智能研究院牵头的“紫东太初”三模态大模型项目，荣获世界人工智能大会最高奖项——SAIL奖（Superior AI Leader，卓越人工智能引领者），成为五个获奖者之一。

9月1日，2022世界人工智能大会颁奖现场。通讯员供图

当前，AI领域多为独立演进单模态技术，学习效率低、模型通用性差。“紫东太初”项目突破了当前AI技术局限，有效解决当前AI技术“一专一能”、小样本学习能力欠缺、跨模态语义鸿沟的痛点，实现了图像、文本、语音三模态数据间的“统一表示”与“相互生成”，理解和生成能力更接近人类，为打造多模态人工智能行业应用提供创新基础，迈出了向通用人工智能的重要一步。

什么是图、文、音三模态的统一表达？想象一下，欧洲杯转播时，根据两队球员足下动作，机器人能自动解说；拍电视剧时，机器人“看”了剧本就能自动生成画面和场景，供导演再加工……

武汉人工智能研究院介绍，中科院自动化所以全栈国产化基础软硬件昇腾AI平台为基础，依托武汉人工智能计算中心算力支持，两年多来，经过研发面向超大规模的高效分布式训练框架，在图、文、音三个基础模型上加入跨模态编码和解码网络，基于昇思MindSpore AI框架，成功打造三模态大模型“紫东太初”，并于2021年7月正式发布。

“紫东太初”是全球首个三模态大模型，自发布以来在多个国际赛事和奖项中获得优胜，已在医疗手术场景自主理解、多媒体信息检索、工业缺陷巡检、虚拟数字导游等场景实现示范应用，展现出广阔的产业发展前景。

武汉人工智能研究院表示，未来将持续瞄准人工智能行业应用碎片化和落地难的问题，基于“紫东太初”大模型打造通用人工智能平台，全面推动建设以跨模态智能为核心的国内一流技术先导区、产业重要增长极和应用示范先行区，促进人工智能赋能千行百业，成为驱动产业转型升级、赋能数字经济发展的新动能。

今年是SAIL奖评选的第五年，国际知名高校、科研机构，全球头部企业踊跃申报，元宇宙、智能芯片、AI大模型等热门赛道集结，800余个项目参与角逐。作为其中大模型的核心代表，“紫东太初”被组委会推荐为八大镇馆之宝之一，在大会展览现场硬核亮相。

【编辑：余丽娜‬】