随着科技的发展,如今上市的新车都开始喜欢标榜自己的“科技感”,智能语音交互就是各大厂商重点推介的功能之一。能够操控导航、打电话、查找附近好吃的、操作空调和车窗甚至讲冷笑话等等,语音交互能够实现的功能越来越多,也呈现出逐渐取代了物理按键和多点触控成为车厢内主流人机交互方式的趋势。
让机器听懂你说话有多难?
相信不少人都在网上看过这么一个视频,一位驾驶员想通过车载系统的语音拨打电话,由于略带口音而屡屡失败,最终气得破口大骂。这个视频也从侧面显示出语音交互不是一门简单的技术活,它的难点主要在识别。
有了足够多的语音和文本数据后,后端模块则负责让机器学习怎么阅读,比如每个字的读音、连在一起怎么读、什么文字组合是更常用的等等,提取出有用的数据模型构成数据库。最终机器在糅合声学模型以及语言模型信息的网络中搜索相应的信息进行解码,输出对应的结果。当然,上述的这段描述还是极大地简化了语音识别的工作原理和难度。
此外,如何在车内嘈杂的环境中提升识别率也是一大难点。在高速行驶的车内往往会有胎噪、空调声等干扰音,想要单独识别出驾驶员的声音尤其是分清主副驾驶的声音,需要额外的技术支持,麦克风阵列就是其中之一。麦克风阵列技术通过多个麦克风能够计算声源的角度和距离从而对目标声源进行定向拾取,再经过去混响技术的过滤得到更加纯净的声学信号。
背后其实是它们
正是因为基于机器学习和深度神经网络技术的语音交互系统有着一定的技术壁垒,因此我们看到的接触到的汽车智能语音系统其实大多数不是来自于各大汽车厂商,而是背后的供应商。
在北美,Nuance是语音识别技术领域的一大巨头。早期苹果的Siri采用了它们的语音技术使得Nuance声名鹊起。随着苹果、微软、谷歌、亚马逊等企业开始转向自行研发的模式后,Nuance也开启了转型,发力消费级市场和企业解决方案。在汽车行业当中,Nuance在2013年之前几乎垄断了各大国际品牌的车载语音系统,包括宝马、奔驰品牌在内的约3000万辆汽车装有它们的车载语音助手。
中文和英文的巨大差异使得国内也诞生了一批语音交互领域的后起之秀。在汽车行业,科大讯飞占据了近70%的市场。厂商宣传的越发雷同的语音交互功能,其实背后使用的都是来自于科大讯飞的技术,其智能语音产品每年大概有200万台的装车量。在其身后还有百度语音、云知声、出门问问等大小企业正在切入汽车智能语音交互系统的市场。
未来将扮演更重要的角色
相比按键,语音交互天然有着更安全和更方便的优势,甚至有行业人士展望未来的车厢内VUI(语音界面)将替代GUI(图形界面),如果这个设想成为现实那么现今大行其道的大小屏幕将迎来功能上的革命。
当然,目前智能语音交互系统的一大痛点仍在于不够智能,我们需要使用机械固定的语音来进行语音交互,而系统的反馈也仅仅像一个词汇量稍大的机器人。因此未来如何让智能语音交互系统情感化、智能化,语音理解和认知智能将成为新的着力点。