11月22日,人工智能与数字经济领域一年一度的科创盛会——2023 IDEA大会在深圳举行。会上,IDEA研究院发布了重磅研产结晶与市场化成果,多位领军科学家、企业家、创业者同台论道,碰撞“学研产投”灵感。
技术创新: 解锁 “一图胜千言”的新体验
2023年,一个个看似散点状的技术突破相继爆发,将人工智能推向主流。然而,AI在以前所未有的力度冲入市场的同时,在研究上仍存在大量空白。IDEA研究院创院理事长、美国国家工程院外籍院士沈向洋在会上发表主旨演讲,他从技术创新、技术创业、技术驱动新产业三个角度,介绍了IDEA研究院在AI新篇章下,对科创的实践与思考。
用图片代替语言prompt(AI模型提示词),是什么体验?
在计算机视觉领域,检测类任务有着极为广泛的应用场景。当天,IDEA研究院发布了视觉提示(visual prompt)模型T-Rex。沈向洋介绍,在真实应用场景中,许多罕见、复杂物体难以用文字充分描述,视觉提示的加入能够有效解决这一痛点。直观的视觉反馈与强交互性,也有助于提升检测的效率和精准度。
值得一提的是,T-Rex是一个开箱即用的模型,无需重新训练或微调,即可检测模型在训练阶段从未见过的物体。该模型不仅可应用于包括计数在内的所有检测类任务,还为智能交互标注场景提供新的解决方案。活动中,沈向洋还发布了T-Rex的模型实验室,用户可亲自试玩解锁“一图胜千言”的新体验。
沈向洋在演讲中指出,计算机视觉领域在呼唤通用大模型的来临。以GPT-4V为代表的多模态大模型,是在语言能力上增加视觉能力;IDEA研究院的计算机视觉团队则选择了另一条路径,先将基础的视觉能力做到极致,再增加语言能力。
“我们认为,物体级别的理解,也就是检测、分割、识别,是连接语言和视觉这两种最重要的模态的基石。”沈向洋表示,只有对物理世界有了更为精准的、物体级别的视觉理解,才有可能做出真正的多模态智能。IDEA团队将通过让模型言之有据、开放词表、可提示交互,来探索视觉大模型之路。
技术创业:科学家、企业家自由碰撞且严谨产出
近年来,技术创业已然成为许多技术创新者的下一站。沈向洋指出,IDEA研究院一直致力于创造一个架构,让科学家头脑、企业家素质、创业者精神能够自由碰撞,严谨产出。成立刚满三年,IDEA研究院也带来一批已经或正在走向大市场的优秀创业项目。
其中,AI科研助手ReadPaper上线一年,收获了不少科研从业者的喜爱。在大会上,团队公开了全新升级的2.0版本,支撑ReadPaper 2.0超强体验的学术大模型Eureka也在现场首次公开。
除了让跨学科、跨界人才在IDEA的平台上碰撞出火花,IDEA也积极与产业伙伴合作,将技术应用到场景,深入到业务中去。今年,万科IDEA联合实验室推出了自主研发的几何建模与约束引擎,填补在工业设计软件领域的国产空白。自2021年宣布成立以来,该实验室已在深圳、上海建设起一支集合图像学、几何计算、视觉技术、机器学习等领域顶尖人才的研究队伍。
技术驱动新产业:低空经济发展再进一步
过去一年,低空经济在全国发展迅猛,IDEA研究院《低空经济发展白皮书(2.0)——全数字化方案》也在活动上发布。
11月23日,由IDEA研究院联合承办的第五届世界科技与发展论坛——世界低空经济论坛将在深圳举行。届时,IDEA研究院将深度分享“异构、高密度、高频次、高复杂度”低空飞行安全和效率问题的解决思路,以及低空空域实现从“可通达”到“可计算”再到“可运营”转变的数字化路径。
“技术创新从来就不是一蹴而就的。”沈向洋说,做科研既要有耐心,也要对趋势有足够深刻的思考,还要建立让创新能够开枝散叶、生生不息的机制。IDEA研究院愿与各界同仁一道,创新智能技术,创造伟大企业,推动数字经济。
深圳晚报记者 杜婷 摄影记者 严文婷 实习生 涂家巧