视觉中国
当地时间5月8日,加利福尼亚谷歌I/O开发者大会开幕。谷歌首席执行官皮克和产品线负责人解释了AI和谷歌助手等产品的进展情况。
RoKoD和ROC将优化行业知名企业的语音合成功能,为初创企业或垂直细分企业寻找机会。
作为AI第一款硬件产品,智能扬声器在过去的一年里一直炙手可热,BAT已经在一个月内进入了该局。过去一年,极客市场已经饱和,市场增长放缓。
直到5月9日凌晨,在谷歌I/O开发者大会上,谷歌助手流畅的人机对话犹如春风,许多媒体惊呼“谷歌制造者”,而智能语音的讨论再次成为公众关注的焦点。
紧随其后的是国内智能语音市场的快速复苏,短短一周,就有超过1亿8000万美元的资金投入,包括云知识、小鱼在家和三角创业。
随着资本的涌入和巨人的进攻,智能声音企业家应该去哪里?
不断发展的语音助理
1966,麻省理工学院的计算机科学家发布了最早和最著名的聊天机器人程序,付然,通过分析用户的话进入计算机,并将它们匹配以生成可能的脚本的响应列表。随后,聊天机器人制造商继续在付然的基础上构建更人性化的聊天机器人。
在过去的半个世纪里,语音识别技术经历了从小词汇识别、孤立词识别到大词汇量和连续语音识别的飞跃。最后,在2010,苹果收购了西丽,并与世界最大的语音识别制造商Nuices合作,并在2011推出了一款携带人工智能语音交互软件的iPhone 4S手机,而语音助手也受到了公众的关注。
在出版初期,西丽支持少量的语言,反应迟钝,语义理解较差。但随着技术的发展和市场的发展,西丽与电话、地图、提醒、音乐等功能有着密切的联系。不久,西丽还打电话来帮助南京警方找到一个手机的拥有者。
在西丽之后,一些诸如微软科塔那、谷歌助手、亚马逊的Alexa、国内百度便秘以及科大的辅音等语音助理正在涌现。目前,至少有50个语音助手平台在中国。“智能语音互动公司CMO长孟告诉北京新闻记者。
科技公司意识到智能语音交互将是下一代技术产品的核心用户入口,但是这些语音识别助手和他们的硬件产品在亚马逊回声出现之前似乎对用户没有任何痛苦。
2014,亚马逊首席执行官Geoff Bezos播放了像ECHO这样的智能门票,甚至没有推出产品发布会。但这是当时亚马逊中没有看到的产品。第一次,语音助手可以用来通过语音交互来切换电器和闹钟。亚马逊庞大的内容资源背后,在两周内销售额达到了100万。要达到同样数量的订单,iPhone需要70天。
ECHO的火势催生了语音市场,媒体报道称业内人士表示,全球智能语音助手设备的需求将在2018从3000万飙升至5000万。
智能语音背后的黑色科技
从聊天机器人付然开始,图灵测试是这些智能语音产品的共同目标。近年来,虽然深度学习和神经网络技术已经取得了显著的进步,但没有机器人能够真正通过图灵测试。
在谷歌I/O会议的第一天,谷歌首席执行官展示了谷歌助手的一个新特性——“双工”,它可以制作一个预约电话,它可以模仿真人的声音,帮助用户完成电话预约、吃饭和吃饭。
不久之后,谷歌宣布双工通过图灵测试取得了里程碑式的成就。
然而,在一些智能语音公司中,谷歌助手只是图灵测试的一部分。
“图灵测试最复杂的方面是没有边界。”智能机器人公司的副总裁Rokid在垂直领域向Wen Jie解释说,对话意图可以是详尽的,比如谷歌在I/O会议上的预订和发型。在积累数据、磨细和优化之后,谷歌不难理解其意图和正确响应。
“在使用命令语音助理,如电话预约时,有成千上万的语句,但对话的意图是详尽的。语义理解可以很好地完成在一个单一的领域。向文杰说,语音助理可以通过语义理解来识别每个句子的意图,并通过对话管理的功能做出适当的反应。
但同时,Wen Jie说,每个行业都有不同的特点。把各种各样的对话放在每一个领域是非常令人筋疲力尽的。根据现有的研究进展,没有一家公司能够在短时间内了解所有的场景。
在他看来,谷歌的展示,最令人惊叹的技术,是语音合成(TTS,文本到语音),这是“真正的语音语调”,引起公众舆论的狂欢。
TTS自然度的一个主要测试标准是MOS(平均意见分数),分数为1-5分,其中5是最好的。
我的普通话水平大约是4.5。国内大多数TTS厂商可以达到4分,也就是说,人们常说有“机械感”发音,而谷歌这次实现了4.6。向文杰说。也就是说,谷歌助手的发音比正常人做得更顺畅自然。
这是由于WaveNet-Teep神经网络,两年前由谷歌推出的,它采用了自然生成的方法,用少量的语言和强大的计算,来生成原始语音,不仅接近真实的人,而且还可以用几个月到几百个小时。
除了语义理解和语音合成之外,智能语音交互还包括语音识别。向文杰说,在语音识别方面,国内互联网巨头和创业公司数量并不多,但只有在极端场景下,高识别精度才能创造价值。
企业家有机会吗?
Apple Siri,微软Cordina(堂娜),谷歌助手和亚马逊Alexa占据世界四大语音助手。中国市场有没有机会?
国内市场中的“玩家”根据公司的规模大致可以分为三个梯队:“BATJ”和Xiaomi和小米的第一梯队,而SAC、Yun Zhi、RoKID和索要的龙头企业则处于第二梯队;山姆、智者、智者等等,都是第三梯队。
对于巨人来说,平台战略是他们一贯的策略。
2017年7月5日,百度推出了对话人工智能系统DuerOS,希望能在智能语音领域做“Android”。基于DueOS,百度推出了一个小型智能设备开放平台,为开发者提供一整套解决方案,包括硬件和软件。
就在百度推出DuerOS的同一天,Ali还推出了智能扬声器产品Tunmart X1。背后的小精灵EL1 X1是第一代的人机通信系统AliGenie由阿里AI实验室开发。
去年六月,腾讯还推出了基于腾讯云的小微智能服务开放平台。
为了抓住物联网的进入,Ali和millet都愿意为价格战而斗争。去年1111,Ali以99元的价格超过一百万的TMALL X1,小米也将补贴到年底,价格为299元的小爱音箱,一直处于缺货状态。
“当早期采用者的成本足够低时,用户购买体验的意愿仍然很强。”向文杰认为,Ali和小米在很大程度上对市场进行了教育,同时攫取了山顶。
企业家们如何在巨人们等待的语音市场找到他们的突破点?
“苹果”RoKoD,希望建立智能语音领域,寻求最终的用户体验,涵盖更简洁的唤醒词,更快的响应时间,更多的纹理设计,以及更广泛的远场识别距离。
在谷歌提出WaveNET模型之后,国内创业公司也跟上了语音合成的趋势。据了解,今年下半年,罗氏和司碧迟有相应的功能投入使用。
同时,在Wen Jie看来,Rokid作为与巨人没有对抗的第三方,可以获得更开放的巨人界面。
这也是智能语音播放器的逻辑。此外,CMO龙梦竹认为,与其他初创公司相比,智能手机和机器人市场的市场占有率在谈判资源获取方面更具讨价还价的能力。
在2014调整战略方向上,物联网福斯驰将专注于2B和智能企业,一直与启发式对话互动,百度地图、高德地图、Alipay、微信、Ctrip、大众评论等喜马拉雅技术服务提供商实现合作。
“对于刚刚起步的初创企业来说,他们只能在更垂直、更细分的领域寻找机会。”龙梦竹补充道。
新北京新闻记者蔡浩双