未动科技CEO孙铮：车载多模交互的应用与未来--粉丝服务平台-粉丝头条-fensifuwu.com

未动科技CEO孙铮：车载多模交互的应用与未来

科技 08-08 来源：车云网

2018年7月27-28日，由车云、中机国际联合举办的2018第二届中国汽车智能座舱论坛在广州保利世贸博览馆召开。Untouch（未动科技）创始人兼CEO孙铮在论坛上分享了汽车座舱里的多模态人机交互。以下为演讲实录，车云略有编辑和删节。

未动科技创始人兼CEO孙铮

大家好！我的名字叫孙铮，来自北京未动科技，北京未动科技是一家为智能座舱提供视觉解决方案的公司。今天我主要讲的是多模态的人机交互，尤其是基于视觉的识别，比如手势识别、人脸识别等在多模态人机交互下的作用。

安全和舒适一直是汽车行业的一个主题，一百年前作为一个驾驶员所关注的事情是开车和关注路面，当然这里面开车需要操控的东西有很多，今天尽管自动驾驶来了，我们在车里开车这件事要省心多了，但是在车里面做的事情越来越多，分心对安全来说是一个威胁。

自动驾驶实际上是为了减少驾驶员的压力，人只能记忆6-8件事，中国人有一句话叫“眼观六路，耳听八方”，同一个时间你就只能干这么多事，这就是车前面要放摄像头还有雷达帮助人来开车，同样的，我们在驾驶舱内部一样会有各种各样的传感器，现在已经有了语音传感器和驾驶员进行交互，未来将会有更多的视觉传感器，所以我们这里探讨的就是如何通过语音的、视觉的整合，来提供一个安全的和舒适的交互方式。

传统的交互，我们叫基于命令的交互，或者是基于选择的交互，现在更多的是基于场景。现在的设备开始理解场景，开始理解用户是谁，用户是什么状态。比如现在各个车厂都在探索的，大家未来一定会看到的，就是人进来之后识别你是谁，通过人脸识别知道你是谁，帮助你进行个性化调节座椅、温度、灯光，播放音乐。

另外一方面交互的主体在增加。过去驾驶员和车交互就好了，现在车代替驾驶员的眼睛，有ADAS系统识别前面的道路，识别出来的东西怎么让驾驶员了解，后面可以有触觉的反馈，在挡风玻璃上显示这些危险因素。而且除了驾驶员，现在大家在探讨怎么给乘客带来更舒适的体验。

什么是汽车未来发展趋势？车里面的屏越来越多。尽管特斯拉做了一张屏，但是也有一个问题，你做不同事情的时候，在一个屏上进行选择的时候深度就会非常深，你要在屏上选择我到底是去看车况还是娱乐系统，你只能选择其一。在今年北京车展上新的奔驰已经有好几块屏，有的是娱乐系统，有的是车机的状态，现在又多了一块屏，就是HUD，未来甚至是车窗，2018年CES展上有一个公司在后排车窗上做了一个大的屏，做了一个娱乐系统，所以屏无处不在，我们如何和这些屏进行交互是一个值得研究的课题。

HUD的一个趋势是越来越大，你不能用按键和触屏来操控HUD，大家可能看过特斯拉用手势来控制挡风玻璃HUD。

智能驾舱已经不再是驾驶员的概念了，现在更多的是后排，大家有孩子的都有经验，小孩坐在后排很难长时间老实地坐在后面，他需要一个比如说娱乐吸引他的注意力，否则后面的孩子经常乱动、乱吵其实是影响驾驶安全的。现在大家探讨的是我如何将后排的玻璃直接作为一个屏，怎么操控这个屏。可以是触控，但是触控要求孩子贴在整个窗户上面，手势操控就变成了一个需求，如何通过手势操控在屏幕上进行画、写、玩游戏，这是手势识别交互应用时的一个场景。

再就是一字型长联屏或者是大屏，这跟HUD是一个类似的场景，这么大的屏你不能人手站起来去触摸，这时候需要一种方式去控制、去选择，这里手势识别就成为一个刚需。

屏无处不在，一字屏也好，上下摆、左右摆，各种形状，各种位置，其中有一个问题，大家想象这么多屏，哪个屏显示什么，大家听说一个词叫多屏互动，比如说驾驶员想让我的副驾看某一个内容，我怎么把这个内容传到另外一个屏上，当然语音是一种方式，一屏传二屏，二屏传三屏，或者我用一个按钮，按钮又是一个问题，你要弄多少个按钮，排列组合非常多，一个很自然的交互方式是我可以选取抓一个屏，多屏互动。我们跟车厂在探讨如何通过手势识别提高多屏互动的体验。

再就是方向盘上，下图这个方向盘上已经有一个屏，按理说我拿着方向盘，手势触碰就应该可以了，但是当你进行自动驾驶，你离开方向盘的时候，人是可以躺下的，这里面你和它交互的时候就可以多一种选择，语音也好、手势也好，可以去控制方向盘上的屏。

我经常被问到一个问题，说你们认为语音交互和手势控制谁更方便，这是我去参加研讨会经常被问及的一个问题，这里面有一个很有意思的事情，就是我们认为语音是一个非常重要的交互形式，但是语音与传统的按钮、触控，包括识别人脸、身体、手势是一个互补的方式，怎么说呢？语音一个很强的功能是他能够理解一些语义，比如我要停留的话，这是一个非常好的语音的应用场景，但是也有一些场景是语音的弱项，比如控制一个大屏，语音很难控制我选择某一个东西。比如一个大的HUD上可以显示多个地理信息的时候，我没法用语音选择说这个、那个，这个时候的手势也好、眼控也好，就变成了更方便的选择。

语音也不适合去做一些连续性的操作，比如说宝马手势识别，大家用的最多的是声音的操控，因为我转一圈声音就大一点，语音就很痛苦，说“大点大点”，这样就会很难受。再有就是在一些嘈杂环境下语音显得不稳定。

今天我们的概念是多模操控、多模交互在车载智能驾舱上的应用，多模这个事情不是今天才有的，在PC时代，我们有键盘，也有鼠标。随着人工智能的发展，多模的交互一定是更人性化，或者是更接近与人和人之间交互的一种方式。多模将成为智能驾舱的一个潮流，甚至成为一个主流。