关键词:密集强化学习,自动驾驶,安全验证,高维空间罕见事件
论文标题:Dense reinforcement learning for safety validation of autonomous vehicles论文链接:https://www.nature.com/articles/s41586-023-05732-2
自动驾驶汽车(autonomous vehicle,AV)的快速发展,把我们推上交通革命的风口浪尖。自动驾驶技术有可能极大提高运输安全性、机动性和可持续性,因此受到全世界各界人士的关注。虽然自动驾驶技术已取得了长足进步,但到目前为止,尚未达到商用的安全标准。提高自动驾驶汽车安全性能的关键瓶颈在于:安全验证极其低效。主要是用软件模拟、封闭试验跑道和道路试验相结合的方式在无损检测(NDE)中对无人驾驶汽车进行试验。然而,在 NDE 上的测试通常需要测试数亿英里。为了提高效率,还有许多基于场景的方法,但主要适用于短场景路段。验证无人驾驶技术的安全性能本质上是一个高维空间中罕见事件的估计问题,主要的挑战在于“维度灾难”(驾驶的时空环境复杂)和“稀有灾难”(影响安全的关键事件发生的概率低)的复合。为解决这一挑战,最新发表在 Nature 的这篇文章开发了一种密集深度强化学习(dense deep-reinforcement-learning,D2RL)方法。基本思想是识别和删除非安全关键数据,并利用安全关键数据训练神经网络。他们开发了环境的智能测试,训练基于人工智能的后台主体,来验证自动驾驶汽车在加速模式下的安全性能,而不会失去无偏性(unbiasedness);基于自然驾驶数据,后台智能主体通过 D2RL 方法来学习执行什么样的应对策略。他们还在结合多模拟背景和现实环境测试了高度自动化的车辆,发现 D2RL 训练的主体可以加速测试过程达多个数量级(103到105倍)。此外,D2RL还能加速其他安全关键型自主系统的测试和训练。图3. 在物理测试轨道上进行真实世界自动驾驶汽车的测试实验。随着“因果革命”在人工智能与大数据领域徐徐展开,作为连接因果科学与深度学习桥梁的因果表征学习,成为备受关注的前沿方向。以往的深度表征学习在数据降维中保留信息并过滤噪音,新兴的因果科学则形成了因果推理与发现的一系列方法。随着二者结合,因果表征学习有望催生更强大的新一代AI。
集智俱乐部组织以“因果表征学习”为主题、为期十周的读书会,聚焦因果科学相关问题,共学共研相关文献。欢迎从事因果科学、人工智能与复杂系统等相关研究领域,或对因果表征学习的理论与应用感兴趣的各界朋友报名参与。集智俱乐部已经组织三季“因果科学”读书会,形成了超过千人的因果科学社区,因果表征学习读书会是其第四季,现在加入读书会即可参与因果社区各类线上线下交流合作。
推荐阅读