未动科技CEO孙铮:车载多模交互的应用与未来

2018年7月27-28日,由车云、中机国际联合举办的2018第二届中国汽车智能座舱论坛在广州保利世贸博览馆召开。Untouch(未动科技)创始人兼CEO孙铮在论坛上分享了汽车座舱里的多模态人机交互。以下为演讲实录,车云略有编辑和删节。

未动科技创始人兼CEO孙铮

大家好!我的名字叫孙铮,来自北京未动科技,北京未动科技是一家为智能座舱提供视觉解决方案的公司。今天我主要讲的是多模态的人机交互,尤其是基于视觉的识别,比如手势识别、人脸识别等在多模态人机交互下的作用。

安全和舒适一直是汽车行业的一个主题,一百年前作为一个驾驶员所关注的事情是开车和关注路面,当然这里面开车需要操控的东西有很多,今天尽管自动驾驶来了,我们在车里开车这件事要省心多了,但是在车里面做的事情越来越多,分心对安全来说是一个威胁。

自动驾驶实际上是为了减少驾驶员的压力,人只能记忆6-8件事,中国人有一句话叫“眼观六路,耳听八方”,同一个时间你就只能干这么多事,这就是车前面要放摄像头还有雷达帮助人来开车,同样的,我们在驾驶舱内部一样会有各种各样的传感器,现在已经有了语音传感器和驾驶员进行交互,未来将会有更多的视觉传感器,所以我们这里探讨的就是如何通过语音的、视觉的整合,来提供一个安全的和舒适的交互方式。

传统的交互,我们叫基于命令的交互,或者是基于选择的交互,现在更多的是基于场景。现在的设备开始理解场景,开始理解用户是谁,用户是什么状态。比如现在各个车厂都在探索的,大家未来一定会看到的,就是人进来之后识别你是谁,通过人脸识别知道你是谁,帮助你进行个性化调节座椅、温度、灯光,播放音乐。

另外一方面交互的主体在增加。过去驾驶员和车交互就好了,现在车代替驾驶员的眼睛,有ADAS系统识别前面的道路,识别出来的东西怎么让驾驶员了解,后面可以有触觉的反馈,在挡风玻璃上显示这些危险因素。而且除了驾驶员,现在大家在探讨怎么给乘客带来更舒适的体验。

什么是汽车未来发展趋势?车里面的屏越来越多。尽管特斯拉做了一张屏,但是也有一个问题,你做不同事情的时候,在一个屏上进行选择的时候深度就会非常深,你要在屏上选择我到底是去看车况还是娱乐系统,你只能选择其一。在今年北京车展上新的奔驰已经有好几块屏,有的是娱乐系统,有的是车机的状态,现在又多了一块屏,就是HUD,未来甚至是车窗,2018年CES展上有一个公司在后排车窗上做了一个大的屏,做了一个娱乐系统,所以屏无处不在,我们如何和这些屏进行交互是一个值得研究的课题。

HUD的一个趋势是越来越大,你不能用按键和触屏来操控HUD,大家可能看过特斯拉用手势来控制挡风玻璃HUD。

智能驾舱已经不再是驾驶员的概念了,现在更多的是后排,大家有孩子的都有经验,小孩坐在后排很难长时间老实地坐在后面,他需要一个比如说娱乐吸引他的注意力,否则后面的孩子经常乱动、乱吵其实是影响驾驶安全的。现在大家探讨的是我如何将后排的玻璃直接作为一个屏,怎么操控这个屏。可以是触控,但是触控要求孩子贴在整个窗户上面,手势操控就变成了一个需求,如何通过手势操控在屏幕上进行画、写、玩游戏,这是手势识别交互应用时的一个场景。

再就是一字型长联屏或者是大屏,这跟HUD是一个类似的场景,这么大的屏你不能人手站起来去触摸,这时候需要一种方式去控制、去选择,这里手势识别就成为一个刚需。

屏无处不在,一字屏也好,上下摆、左右摆,各种形状,各种位置,其中有一个问题,大家想象这么多屏,哪个屏显示什么,大家听说一个词叫多屏互动,比如说驾驶员想让我的副驾看某一个内容,我怎么把这个内容传到另外一个屏上,当然语音是一种方式,一屏传二屏,二屏传三屏,或者我用一个按钮,按钮又是一个问题,你要弄多少个按钮,排列组合非常多,一个很自然的交互方式是我可以选取抓一个屏,多屏互动。我们跟车厂在探讨如何通过手势识别提高多屏互动的体验。

再就是方向盘上,下图这个方向盘上已经有一个屏,按理说我拿着方向盘,手势触碰就应该可以了,但是当你进行自动驾驶,你离开方向盘的时候,人是可以躺下的,这里面你和它交互的时候就可以多一种选择,语音也好、手势也好,可以去控制方向盘上的屏。

我经常被问到一个问题,说你们认为语音交互和手势控制谁更方便,这是我去参加研讨会经常被问及的一个问题,这里面有一个很有意思的事情,就是我们认为语音是一个非常重要的交互形式,但是语音与传统的按钮、触控,包括识别人脸、身体、手势是一个互补的方式,怎么说呢?语音一个很强的功能是他能够理解一些语义,比如我要停留的话,这是一个非常好的语音的应用场景,但是也有一些场景是语音的弱项,比如控制一个大屏,语音很难控制我选择某一个东西。比如一个大的HUD上可以显示多个地理信息的时候,我没法用语音选择说这个、那个,这个时候的手势也好、眼控也好,就变成了更方便的选择。

语音也不适合去做一些连续性的操作,比如说宝马手势识别,大家用的最多的是声音的操控,因为我转一圈声音就大一点,语音就很痛苦,说“大点大点”,这样就会很难受。再有就是在一些嘈杂环境下语音显得不稳定。

今天我们的概念是多模操控、多模交互在车载智能驾舱上的应用,多模这个事情不是今天才有的,在PC时代,我们有键盘,也有鼠标。随着人工智能的发展,多模的交互一定是更人性化,或者是更接近与人和人之间交互的一种方式。多模将成为智能驾舱的一个潮流,甚至成为一个主流。

发表评论
留言与评论(共有 0 条评论)
   
验证码:

相关文章

推荐文章

'); })();