19年毕业，22年回母校清华任职，今日发Nature封面论文--粉丝服务平台-粉丝头条-fensifuwu.com

19年毕业，22年回母校清华任职，今日发Nature封面论文

日期： 2023-03-23 16:50:26 来源：材料科学前沿收集编辑：高分子科学前沿

今天给大家介绍的是清华大学的封硕助理教授。他是清华大学自动化系2010级本科生、曾任系学生会主席、自4年级带班辅导员、系团委书记、系党委学生组副组长、清华大学“思源计划”14期辅导员等职务。

在2014年，封硕选择了直博，师从张毅教授，主要研究方向为自动驾驶汽车智能测试理论与方法。博士期间在权威国际学术期刊上以第一作者发表论文6篇，包括在智能交通领域顶级期刊IEEE Transactions on ITS发表系列文章2篇。曾获国家奖学金、“一二·九”辅导员奖、“紫荆学者”等荣誉。

2020年9月21日，IEEE智能交通系统学会在希腊召开第23届国际智能交通系统年会，颁发了本届年会的“最佳博士学位论文奖”。该奖项今年共评选3人，封硕排名第2获二等奖。IEEE智能交通系统学会从2006年设立“最佳博士学位论文奖”以来，每年在全球范围内评选出2-3位获奖者，以表彰博士毕业生在攻读学位期间为世界智能交通系统的理论方法研究和关键技术应用等方面所做出的贡献。截止2020年，仅有3位大陆博士毕业生分别于2006年、2013年和2020年获此殊荣。

2022年，封硕回国任职于清华大学自动化系，主要从事智能系统测试验证理论与方法研究，特别是安全关键智能系统的“稀度灾难”（Curse of Rarity）问题，提出了智能等效加速测试理论与场景生成方法体系，并在自动驾驶汽车领域得到了广泛应用，解决了传统自动驾驶汽车测试方法的低效率、低维度、低智能等局限性。

文章解读

由于自动驾驶汽车（AV）技术的快速发展，作者正处于交通革命的风口浪尖上。AV技术有可能大幅提高运输安全性，移动性和可持续性，因此引起了行业，政府机构，专业组织和学术机构的全球关注。在过去的20年里，自动驾驶汽车的发展取得了实质性的进展。但到目前为止，自动驾驶汽车的安全性能仍远低于人类驾驶员。阻碍自动驾驶汽车发展和部署的一个关键瓶颈是，由于安全关键事件的罕见性，在自然驾驶环境中验证其安全性所需的经济和时间成本过高。

基于此，密歇根大学的Henry X. Liu教授课题组报告了一个智能测试环境的发展，基于人工智能的背景后台被训练来验证加速模式下自动驾驶汽车的安全性能，而不会失去公正性。从自然驾驶数据中，后台代理通过密集的深度强化学习（D2RL）方法学习要执行的对抗性操作，其中马尔可夫决策过程通过删除非安全关键状态并重新连接关键状态来编辑，以便训练数据中的信息密集化。D2RL使神经网络能够从具有安全关键事件的密集信息中学习，并完成传统深度学习方法难以解决的任务。作者通过在高速公路和城市测试轨道上测试具有增强现实环境的高度自动化车辆，将模拟背景车辆与物理道路基础设施和真正的自动驾驶测试车辆相结合，证明了作者方法的有效性。作者的结果表明，D2RL训练的代理可以将评估过程加速多个数量级（10³到 10⁵倍）。相关成果以“Dense reinforcement learning for safety validation of autonomous vehicles”为题发表在Nature上，第一作者为封硕助理教授。

验证AVE中AV的安全性能本质上是一个高维空间中的罕见事件估计问题。主要挑战是由“稀有诅咒”和“维度诅咒”的复合效应引起的（图1a）。近几十年来，人工智能（AI）系统解决维度诅咒问题的能力取得了快速发展。

作者通过开发密集的深度强化学习（D2RL）方法来应对这一挑战。基本思想是识别和删除非安全关键数据，并利用安全关键数据训练神经网络。本质上，D2RL方法通过删除非临界状态并重新连接临界状态来编辑马尔可夫决策过程，然后仅针对编辑的马尔可夫过程训练神经网络（图1b,c）。与DRL方法相比，D1RL方法可以显著降低策略梯度估计的方差，而不会损失无偏性。对于AV测试，作者利用D1RL方法，通过神经网络训练背景车辆（BV），以了解何时执行对抗性操作，旨在提高测试效率并确保评估的公正性。该方法赋予环境中的测试代理智能，以创建智能测试环境，即使用AI来验证AI。这是一个范式转变，它为加速其他安全关键系统的测试和培训打开了大门。

图1：使用密集学习方法验证安全关键型 AI

密集深度强化学习

在这项研究中，作者利用了临界值测量法，它是对从当前状态开始的特定时间范围内（例如一秒钟）的AV碰撞率的外部近似值(图2a)。然后，作者编辑马尔可夫过程，丢弃非关键状态的数据，并使用剩余的数据进行 DRL 训练的策略梯度估计和自举。作者发现，密集学习可以显著降低策略梯度估计的方差，而不会损失估计的无偏性。

为了证明密集学习的有效性，作者将D2RL与DRL方法用于极端情况生成问题进行了比较。作者训练了一个神经网络，通过控制最接近的八个BV的行动来最大化AV的碰撞率（图2a）。与DRL相比，D2RL删除了80.5%的完整数据和99.3%的非关键状态的步骤数据。这表明D2RL可以减少约99.3%的策略梯度估计方差，从而使神经网络能够有效地学习。具体来说，D2RL可以在训练过程中使奖励最大化，而DRL从训练过程一开始就卡住了（图2c）.图2e–g说明了三个生成的极端情况。

图 2：使用 corner-case-generation 示例比较 D2RL 和 DRL

仿真中的视音频测试

图 3 显示了 AV-I 模型行驶距离为 400 m 的双车道高速公路环境的结果，如图3a所示，在训练过程中，智能测试环境的估计方差随奖励函数的增加而减小，证明了奖励函数的有效性。如图3b所示，在训练过程中，政策外实验的崩溃率大幅增加，而非政策实验的崩溃率保持不变，因为行为策略不变。然而，由于政策机制打破了奖励函数和估计方差之间的一致性，这种崩溃率的增加将具有误导性。如图3c所示，由on-policy机制得到的测试环境低估了碰撞率。相比之下，作者的非政策性方法可以获得与无损检测方法相同的碰撞率，但效率更高（图3d，e）。

为了进一步研究可扩展性和通用性，作者对AV-I模型进行了不同车道数（两条和三条车道）和驾驶距离（400米、2公里、4公里和25公里）的实验。在这里，作者研究了25公里的情况，以证明作者的方法对全长行程的有效性。由于跳过的情节和步骤大大减少了训练方差，作者的方法可以有效地学习所有实验中的智能测试环境。

图 3：基于 D2RL 的智能测试环境的性能评估

测试轨道中的 AV 测试

最后，作者测试了一辆装有开源自动驾驶系统Autoware23的林肯MKZ混合动力车（图4a），在ACM的物理多车道4公里高速公路测试轨道（图4b）和Mcity的城市测试轨道（图4c）上连续行驶。图4d说明了测试过程的实时可视化。如图4e-h所示，ACM和Mcity的碰撞率估计在ACM的大约156次测试和Mcity的117次测试后收敛并达到30%的相对半宽，这比无损检测方法的估计快10⁵倍。作者还评估了AV在不同碰撞类型和严重程度下的安全性能（图4i，j）。

图 4：真实世界 AV 在物理测试轨道上的测试实验

小结

作者的研究结果提供了使用D2RL技术来验证AV行为能力安全性能的证据。.D2RL可以加速测试过程，可用于仿真测试和测试跟踪方法。它可以大大增强现有的测试方法以克服它们在实际应用中的局限性。D2RL还为利用AI技术验证其他安全关键自主系统（如医疗机器人和航空航天系统）的机器智能打开了大门。

名称：材料科学前沿

ID：MaterialFrontiers

立志打造材料领域有特色的新媒体

投稿、荐稿、爆料：editor@polysci.cn

服务粉丝

19年毕业，22年回母校清华任职，今日发Nature封面论文

文章推荐

相关阅读

登上Nature封面的自动驾驶，这次有“人工智能”保驾护航！

CTF 代码审计那些事

历史学者李硕与他的《翦商》

【语润仙境】蓬莱区综合行政执法局组织开展党务知识培训特色宣讲活动

分享传递经验，交流誓创佳绩——临颍县南街学校八年级学习方法交流大会

《现代广告》（学刊）来稿格式

组件库单测编写分享

想要论文写的好，数据分析不可少||XRD测试用户专属福利来

一篇论文，竟然有8778个作者？人均只写5个字，仅署名就有17页

云原生引擎单元测试实践

聚合标签

热门文章

百元茅台没人买，千元茅台有人追。十年前，有人花百元买了一万股茅台，后出手追中石油，如今，茅台一飞冲天，中石油深套十年。炒股，不要见异思迁，价值投资是首选。#股票#

谁说定期存款提前支取不划算？存中原银行“惠农宝”放心随便取

张小龙:交了8千万税无北京户籍孩子连私立也不让上

万字详解：ROE连续十年超过20的明星公司全面分析（附：详细名单）

“复活”半年后　京东拍拍二手杀入公益事业

离职时没有做满一个月，公司还需要帮纳当月社保吗？

最新文章

19年毕业，22年回母校清华任职，今日发Nature封面论文

联合国全球契约组织企业会员加入最新动态

总干事专栏 | 更多女性进入科技领域有益于所有人

UNGC亚太区首席代表刘萌：ESG管理需内部化，警惕变成公关手段

2023年山西要新建5G基站2.5万个

黄浦区人民政府与北京市西城区人民政府签署缔结友好城区协议