日期:
来源:CATTI中心收集编辑:CATTI中心
日前谷歌方面宣布,谷歌翻译网页版已支持直接翻译图片上的文字内容,并且翻译后的文字可直接复制,或是保存翻译后的图片。据悉,这一功能的实现得益于其使用了 AR Translate(AR 翻译)技术,目前已支持 113 种源语言与 133 种目标语言,同时 Google Lens 同样也是借助这项技术服务用户。
经验证发现,更新后的谷歌翻译网页中新增了图片翻译选项,用户选择图片翻译后、可上传图片按需选择语言进行翻译。但翻译后的图片,则有可能会出现版面及字体大小的调整。
据了解,2017 年 5 月发布的 Google Lens 目前同样也使用了 AR Translate 技术,这是一款基于图像识别与 OCR 的人工智能应用,能够借助摄像头识别物体后提供搜索服务,功能也已从最初的物体识别更迭到可货币化搜索。此前在今年 2 月,谷歌方面在一场人工智能主题的活动中透露,Google Lens 每月的搜索量已达 100 亿次。
此外,近日谷歌相关团队在还联合柏林工业大学推出了一款视觉语言模型 PaLM-E,该模型通过 PaLM-540B 语言模型与 Vit-22B 视觉 Transformer 模型结合后的最终参数高达 5620 亿,不仅能进行简单的问答对话,还能指导机器人完成相对复杂的指令。同时谷歌方面还表示,其公布的通用语音模型 USM 也已实现升级,目前能检测和翻译包含英语、汉语在内的多种语言。在谷歌官方博客中还透露,与 OpenAI 的语音模型 Whisper 相比,USM 的数据训练时长更短、错误率更低。