声智:物联网时代 语音交互将成IOT设备入口


图:声智战略合伙人/副总裁 李智勇

物联网时代,语音交互将会是智能硬件产品重要的入口。

特别是智能音箱,最近两年来发展迅猛,几乎所有主流企业都是入局者,如华为音箱、小米音箱、腾讯音箱等等,因大企业的入局,让国内智能音箱领域竞争更加残酷。

或许北京声智科技有限公司(以下简称:声智)会是一匹黑马,因为市面上大多数智能音箱,如小米、华为、腾讯等出品的智能音箱几乎都是采用声智的远程语音交互方案。

声智战略合伙人/副总裁李智勇说:“声智的强项在于远场语音交互能力,这也是华为、小米等与我们合作的原因,凡是和远场语音交互相关的部分,我们都是做的比较好的。”

对国内机器人企业而言,声智专业的远场语音交互技术或许可以提升机器人语音交互能力,特别是在复杂的商业场景里,语音交互可以得到更好的优化。

1号机器人网记者:声智有丰富的应用案例基础,你们的核心技术是体现在哪些方面?

李智勇:为了实现智能音箱的一次交互,核心技术有5点:

第一点是远场语音唤醒;第二点是麦克风阵列;第三点是远场语音识别;第四点是我们经常讲的自然语言处理;第五点是语音合成和TTS。这五个流程是每次交互都会用到,另外就是辅助的一些技术点。

比如经常说的声纹识别,你要区分每个讲话的人是谁?通话时通话的质量高不高?等等还要根据不同使用场景来进行优化不同的技术和算法。

凡是和远场语音交互相关的部分,我们都是做的比较好的,现在市面上的主流智能音箱产品都是用我们的方案,如华为音箱、小米音箱、腾讯音箱等等。

另外,我们把各种复杂的技术整合在一套系统里,自主研发了远场智能交互系统SoundAI Azero,这样对产品方而言,就更加省事。产品方只需要注重产品其它部分的开发,如灯、按键等,然后搭载我们的SoundAI Azero系统就可以出产品了。对产品企业而言,与我们合作,可以大大节省产品开发的周期。

1号机器人网记者:要想得到完美的语音识别产品,需要经过多长的时间训练?一般语音识别的训练过程是怎样?

李智勇:语音识别训练与通常进行深度学习训练是一样的,首先有相应的数据进行标注,然后调一些参数进行训练,接下来看效果再进一步调优。

核心驱动点有两个,一个不是训练本身的时间,关键是数据,到底有多少数据?标注精不精准?另一个是训练本身,越往后发展,语音识别不能说只做一套识别就能适用所有。真正能做到的是,在特定领域,数据影响权重,变得比模型权重更大一些。

1号机器人网记者:可否介绍一下你们的麦克风阵列芯片?你们花了多久的时间进行研发?这片芯片都集成了哪些技术?

李智勇:这不是大家经常说的芯片,我们研发这款芯片是AI声学芯片,主要目的是让市面上已有的产品可接入麦克风阵列。

如市面上已有的电视机,很多不支持麦克风阵列,现在有了这片芯片后,可以很容易支持麦克风阵列。

随着物联网时代的到来,市面上很多IOT设备都会需要智能交互产品,而我们的芯片就是支撑已有产品很容易接入我们的远场语音交互系统SoundAI Azero。

1号机器人网记者:看官网介绍,你们的案例客户有百度、腾讯、阿里、小米、华为等等,你们为他们提供的是怎样的解决方案?它们的产品相互之间会存在差异吗?

李智勇:这些主流的产品,很多都是远场语音交互的设备,而我们的技术核心就体现在远场语音交互上,如远场语音唤醒、远场语音识别等。

不同客户,它的产品侧重点和特色不同,比如说华为音箱,它把通话的功能也加进来了,这是原来智能音箱所不具备的。还如腾讯王者荣耀机器人,从ID到整个产品的思路和通常的智能音箱也不同,所以它们产品相互之间还是存在差异的。

1号机器人网记者:现在市面上的儿童机器人种类繁多,针对儿童机器人,你们可以提供怎样的解决方案?

李智勇:儿童机器人也是分两部分:一部分是产品本身,如唤醒、降噪、麦克风阵列等,语音交互能力跟智能音箱是相通的。我们在智能音箱领域的经验可以移植到儿童机器人领域;另一部分是相比智能音箱,儿童机器人搭载的内容是不一样的。

我们在儿童机器人领域也有内容服务资源,我们与第三方企业合作,把内容服务接入到我们Sound Azero系统中来,现在在儿童机器人领域,我们可以提供一套比较完整的方案。

假设儿童机器人厂商,用我们的远场智能交互系统SoundAI Azero,他只需要选择一个唤醒词,再做一些基础的集成工作就可以了。比如针对具体的场景做一些技能的调整,再把你自己特别想输出的内容,接到系统里就可以了。我们可以提供部分儿童内容,但是更多技能端的扩展内容,儿童机器人企业也可以自己去寻找。

1号机器人网记者:目前已有不少大型商用机器人已经落地到政务系统,如深圳出入境就有一台机器人在服务,但是从现场体验来看,语音交互不是很理想,在商业噪杂的环境下,你们可以提供怎样的解决方案?

李智勇:目前语音交互有两个一大一小的瓶颈,大的瓶颈也是NLP当前的技术瓶颈,目前语音识别没办法达到100%的准确率;另外一个小的瓶颈就是在复杂环境下的远场降噪处理。

因为每家公司擅长的地方不一样,而远场语音交互是我们擅长的,虽然,我们还没有与商业机器人合作过,但是从我们的角度去看,语音交互是可以优化的。

因为在商场里,我们能解决智能音箱交互问题,如果是商业机器人,就需要机器人企业与我们联动配合优化,当然,经过一定周期的优化过程,我们可以提升商业机器人在复杂环境中的语音交互能力,甚至提升一个量级。

1号机器人网记者:就语音技术来讲,目前中国与西方国家是否存在技术差距?如果相互对比,西方技术的优势体现在哪里?国内的企业技术优势又体现在哪里?

李智勇:从技术上讲,目前中西方语音交互整体技术并没有太大的差距,大家基本处于同一个水平线。当然,类似亚马逊等公司在语音识别领域精耕很长时间,所以体验感会略好一些。

产品体验感并不是技术好了,体验就好了,它涉及很多的因素,如产品结构设计、响应速度、内容多少等等,这个是需要时间打磨的,国内很多语音企业都是2017年才出产品,发展也就两年时间。

其实中西方语音企业是可以互补的,比如中文领域,国内语音企业普遍做的比西方企业好,因为中国有大量语料、大量的数据,这是西方所不能比拟的。但是西方企业在英文领域精耕的很好,这是目前国内语音企业薄弱的地方。

1号机器人网记者:最后一个问题,从市场拓展的角度去讲,目前你们的业务重心是放在哪几个领域?你们是如何看待机器人这个市场?

李智勇:目前AIoT场景是很热门,而且跑的也很快,各种品类都在崛起,如:电视、机顶盒、儿童机器人和故事机、汽车车联网前装后装、白色家电等等,对我们来说,当前首先是智能音箱,属于成长最快的领域。

另外,从智能音箱延伸到其它产品,对我们来讲,场景迁移的成本并没有想象中的大,如延伸汽车领域、电视领域等等,我们目标是覆盖主流的通用产品领域,然后通过不同的技能来实现不同场景下不同的产品应用去解决客户的疑难杂症。

对于机器人,从技术视角和商业视角去讲:技术视角,机器人是众多技术的融合结晶,人工智能技术越成熟,机器人最终落地也会更完美;从商业视角来讲,现阶段机器人需要往更多垂直领域去精耕,因为通用机器人属于未来的产品,目前暂不适合。

发表评论
留言与评论(共有 0 条评论)
   
验证码:

相关文章

推荐文章

'); })();