服务粉丝

我们一直在努力
当前位置:首页 > 财经 >

19年毕业,22年回母校清华任职,今日发Nature封面论文

日期: 来源:材料科学前沿收集编辑:高分子科学前沿

今天给大家介绍的是清华大学的封硕助理教授。他是清华大学自动化系2010级本科生、曾任系学生会主席、自4年级带班辅导员、系团委书记、系党委学生组副组长、清华大学“思源计划”14期辅导员等职务。
在2014年,封硕选择了直博,师从张毅教授主要研究方向为自动驾驶汽车智能测试理论与方法。博士期间在权威国际学术期刊上以第一作者发表论文6篇,包括在智能交通领域顶级期刊IEEE Transactions on ITS发表系列文章2篇。曾获国家奖学金、“一二·九”辅导员奖、“紫荆学者”等荣誉。
2020年9月21日,IEEE智能交通系统学会在希腊召开第23届国际智能交通系统年会,颁发了本届年会的“最佳博士学位论文奖”。该奖项今年共评选3人,封硕排名第2获二等奖。IEEE智能交通系统学会从2006年设立“最佳博士学位论文奖”以来,每年在全球范围内评选出2-3位获奖者,以表彰博士毕业生在攻读学位期间为世界智能交通系统的理论方法研究和关键技术应用等方面所做出的贡献。截止2020年,仅有3位大陆博士毕业生分别于2006年、2013年和2020年获此殊荣。
2022年,封硕回国任职于清华大学自动化系,主要从事智能系统测试验证理论与方法研究,特别是安全关键智能系统的“稀度灾难”(Curse of Rarity)问题,提出了智能等效加速测试理论与场景生成方法体系,并在自动驾驶汽车领域得到了广泛应用,解决了传统自动驾驶汽车测试方法的低效率、低维度、低智能等局限性
文章解读
由于自动驾驶汽车(AV)技术的快速发展,作者正处于交通革命的风口浪尖上。AV技术有可能大幅提高运输安全性,移动性和可持续性,因此引起了行业,政府机构,专业组织和学术机构的全球关注。在过去的20年里,自动驾驶汽车的发展取得了实质性的进展。但到目前为止,自动驾驶汽车的安全性能仍远低于人类驾驶员。阻碍自动驾驶汽车发展和部署的一个关键瓶颈是,由于安全关键事件的罕见性,在自然驾驶环境中验证其安全性所需的经济和时间成本过高
基于此,密歇根大学的Henry X. Liu教授课题组报告了一个智能测试环境的发展,基于人工智能的背景后台被训练来验证加速模式下自动驾驶汽车的安全性能,而不会失去公正性。从自然驾驶数据中,后台代理通过密集的深度强化学习(D2RL)方法学习要执行的对抗性操作,其中马尔可夫决策过程通过删除非安全关键状态并重新连接关键状态来编辑,以便训练数据中的信息密集化。D2RL使神经网络能够从具有安全关键事件的密集信息中学习,并完成传统深度学习方法难以解决的任务。作者通过在高速公路和城市测试轨道上测试具有增强现实环境的高度自动化车辆,将模拟背景车辆与物理道路基础设施和真正的自动驾驶测试车辆相结合,证明了作者方法的有效性。作者的结果表明,D2RL训练的代理可以将评估过程加速多个数量级(103到 105倍)。相关成果以“Dense reinforcement learning for safety validation of autonomous vehicles”为题发表在Nature上,第一作者为封硕助理教授。
验证AVE中AV的安全性能本质上是一个高维空间中的罕见事件估计问题主要挑战是由“稀有诅咒”和“维度诅咒”的复合效应引起的(图1a)。近几十年来,人工智能(AI)系统解决维度诅咒问题的能力取得了快速发展。
作者通过开发密集的深度强化学习(D2RL)方法来应对这一挑战。基本思想是识别和删除非安全关键数据,并利用安全关键数据训练神经网络。本质上,D2RL方法通过删除非临界状态并重新连接临界状态来编辑马尔可夫决策过程,然后仅针对编辑的马尔可夫过程训练神经网络(图1b,c)。与DRL方法相比,D1RL方法可以显著降低策略梯度估计的方差,而不会损失无偏性。对于AV测试,作者利用D1RL方法,通过神经网络训练背景车辆(BV),以了解何时执行对抗性操作,旨在提高测试效率并确保评估的公正性。该方法赋予环境中的测试代理智能,以创建智能测试环境,即使用AI来验证AI。这是一个范式转变,它为加速其他安全关键系统的测试和培训打开了大门
图1:使用密集学习方法验证安全关键型 AI
密集深度强化学习
在这项研究中,作者利用了临界值测量法,它是对从当前状态开始的特定时间范围内(例如一秒钟)的AV碰撞率的外部近似值(图2a)。然后,作者编辑马尔可夫过程,丢弃非关键状态的数据,并使用剩余的数据进行 DRL 训练的策略梯度估计和自举。作者发现,密集学习可以显著降低策略梯度估计的方差,而不会损失估计的无偏性。
为了证明密集学习的有效性,作者将D2RL与DRL方法用于极端情况生成问题进行了比较。作者训练了一个神经网络,通过控制最接近的八个BV的行动来最大化AV的碰撞率(图2a)。与DRL相比,D2RL删除了80.5%的完整数据和99.3%的非关键状态的步骤数据。这表明D2RL可以减少约99.3%的策略梯度估计方差,从而使神经网络能够有效地学习。具体来说,D2RL可以在训练过程中使奖励最大化,而DRL从训练过程一开始就卡住了(图2c).图2e–g说明了三个生成的极端情况。
图 2:使用 corner-case-generation 示例比较 D2RL 和 DRL
仿真中的视音频测试
图 3 显示了 AV-I 模型行驶距离为 400 m 的双车道高速公路环境的结果,如图3a所示,在训练过程中,智能测试环境的估计方差随奖励函数的增加而减小,证明了奖励函数的有效性。如图3b所示,在训练过程中,政策外实验的崩溃率大幅增加,而非政策实验的崩溃率保持不变,因为行为策略不变。然而,由于政策机制打破了奖励函数和估计方差之间的一致性,这种崩溃率的增加将具有误导性。如图3c所示,由on-policy机制得到的测试环境低估了碰撞率。相比之下,作者的非政策性方法可以获得与无损检测方法相同的碰撞率,但效率更高(图3d,e)。
为了进一步研究可扩展性和通用性,作者对AV-I模型进行了不同车道数(两条和三条车道)和驾驶距离(400米、2公里、4公里和25公里)的实验。在这里,作者研究了25公里的情况,以证明作者的方法对全长行程的有效性。由于跳过的情节和步骤大大减少了训练方差,作者的方法可以有效地学习所有实验中的智能测试环境
图 3:基于 D2RL 的智能测试环境的性能评估
测试轨道中的 AV 测试
最后,作者测试了一辆装有开源自动驾驶系统Autoware23的林肯MKZ混合动力车(图4a),在ACM的物理多车道4公里高速公路测试轨道(图4b)和Mcity的城市测试轨道(图4c)上连续行驶。图4d说明了测试过程的实时可视化。如图4e-h所示,ACM和Mcity的碰撞率估计在ACM的大约156次测试和Mcity的117次测试后收敛并达到30%的相对半宽,这比无损检测方法的估计快105倍。作者还评估了AV在不同碰撞类型和严重程度下的安全性能(图4i,j)。
图 4:真实世界 AV 在物理测试轨道上的测试实验
小结
作者的研究结果提供了使用D2RL技术来验证AV行为能力安全性能的证据。.D2RL可以加速测试过程,可用于仿真测试和测试跟踪方法。它可以大大增强现有的测试方法以克服它们在实际应用中的局限性。D2RL还为利用AI技术验证其他安全关键自主系统(如医疗机器人和航空航天系统)的机器智能打开了大门。
名称:材料科学前沿
ID:MaterialFrontiers
立志打造材料领域有特色的新媒体
投稿、荐稿、爆料:editor@polysci.cn

相关阅读

  • CTF 代码审计那些事

  • 概述VNCTF 2023来袭!癸卯之初,让我们“兔”飞猛进,再次相聚在VNCTF的舞台!在工作岗位一直担任开发的角色,做着代码审计的相关工作,新年伊始,打算辗转CTF比赛试试水,和大佬学习学习思
  • 历史学者李硕与他的《翦商》

  • “在商人的眼里,世界是冷酷的充满暴力、杀戮、掠夺和不安全他们不认为鬼神有明确的善恶观念或者说,商人本没有明确的善恶观念自然也不会想象鬼神能有。”甲骨文里的“翦”字就
  • 《现代广告》(学刊)来稿格式

  • 星标才能经常看到我们哦~后台回复「加群」加入现代广告圈1.中文标题(即论文题目):中文标题置于第一页的最上方。主标题采用黑体,居中,加粗,小二字号。如有需要,可在主标题下方增加
  • 组件库单测编写分享

  • 大厂技术 坚持周更 精选好文本文为来自 字节跳动-国际化电商-S 项目团队 成员的文章,已授权 ELab 发布。单测的意义组件作为一种被频繁复用的代码,出现线上 bug 的时候影响
  • 云原生引擎单元测试实践

  • 来源 | OSCHINA 社区作者 | 京东云开发者-京东零售 王雷原文链接:https://my.oschina.net/u/4090830/blog/8589764单元测试概念单元测试是用来对一个模块、一个函数或者一个

热门文章

  • “复活”半年后 京东拍拍二手杀入公益事业

  • 京东拍拍二手“复活”半年后,杀入公益事业,试图让企业捐的赠品、家庭闲置品变成实实在在的“爱心”。 把“闲置品”变爱心 6月12日,“益心一益·守护梦想每一步”2018年四

最新文章

  • 联合国全球契约组织企业会员加入最新动态

  • 联合国全球契约组织是全球最大的推进企业社会责任和可持续发展的国际组织。截止2023年3月21日,联合国全球契约组织已拥有来自162个国家的超过21,000家会员。其中,中国企业会员
  • 2023年山西要新建5G基站2.5万个

  • 省工信厅近日发布的《山西省信息化和工业化融合发展2023年行动计划》提出,力争到2023年底,我省新建5G基站2.5万个,累计建成5G基站9.21万个,提前完成“十四五”5G基站建设任务。