ICLR 2022年微软亚洲研究院的亮点：拓展机器学习技术和应用的视野

科技 06-14 来源：数字的星球

ICLR（国际学习表征会议）被公认为深度学习领域的顶级会议之一。许多关于人工智能、统计学和数据科学以及机器视觉、语音识别和文本理解等重要应用领域的有影响力的论文已在本次会议上发表并发表。以下精选的ICLR 2022接受的论文展示了微软及其合作者在视觉预培训、定期时间序列预测、差异隐私、代码完成、表格预培训和在线强化学习方面的最新研究。

随着对深度学习的研究不断增长和变化，微软的研究人员和合作者正在拓宽他们在该领域的方法。正如这篇文章中强调的几篇论文所表明的那样，研究团队继续完善他们的想法，即各种机器学习技术如何才能最好地应用于现实世界中的应用，无论是用于工业中的专门应用，还是用于改进模型总体决策的更普遍的方法。他们还进一步了解了计算机视觉等不同模式如何将机器学习的应用扩展到语言之外。

在探索现实世界应用和多模式的同时，研究人员正在展望机器学习技术的未来，进一步探索深度在线和离线强化学习的未知领域。在后一类子领域中，模型如何从数据中学习和与数据交互的基础正在不断发展，研究人员考虑优化这些过程的方式也在不断发展，并针对现实世界中数据稀缺或不可用的情况对其进行重新设计。

这篇文章是微软亚洲研究院（Microsoft Research Asia）的研究人员及其合作者在ICLR 2022上所做工作的样本，反映了该公司机器学习研究的广泛范围。您可以在“Microsoft at ICLR 2022”活动页面上了解有关今年活动接受的工作的更多信息。在Microsoft Research博客上，您可以深入阅读会议上接受的两篇论文，一篇是关于MoLeR的，这是一种将分子表示为图形以改进药物发现的模型，另一篇是关于路径预测消除（PPE）的，这是一种强化学习方法，其鲁棒性足以消除不断变化的环境中的噪音。

DEPTS：周期性时间序列预测的深度扩展学习

图1：右侧的图像显示了部门的总体数据流。中间的图像显示了研究人员如何绘制扩展模块中三个逐层扩展分支的整体结构。左侧的图像描绘了单个层内的详细剩余连接。

参与人员和组织：微软亚洲研究院的郑舜、易晓涵、曹伟、边健和刘铁岩；来自中佛罗里达大学的魏帆和傅燕杰。

根据这篇论文：周期时间序列（PTS，或具有明显周期振荡的时间序列）广泛存在于运输、发电和输电、可持续发展等行业。PTS预测在这些行业中发挥着至关重要的作用，因为它可以帮助企业完成许多关键任务，包括预警、预先规划和资源调度。然而，临时秘书处的预测业绩可能会受到对其固有周期性质和各个周期复杂性的依赖性的影响。

本文介绍了用于PTS预测的深度扩展学习框架DEPTS。DEPTS从一个新的解耦公式开始，通过引入周期状态作为隐藏变量，研究人员可以创建自定义模块来应对上述两个挑战。为了解决第一个挑战，研究人员在剩余学习的基础上开发了一个扩展模块，对这些复杂的依赖项进行逐层扩展。为了解决第二个问题，他们引入了一个具有参数化周期函数的周期模块，该函数能够捕获不同的周期。

研究人员对合成数据和真实数据进行了实验，结果表明，DEPTS在PTS预测方面非常有效，与基线相比，误差显著减少，在某些情况下，误差提高了20%。

面向部署的高效强化学习：下界和最优性

图2：这显示了我们算法的高级可视化：逐层策略（以三层表格MDP为例）。

参与人员和组织：来自微软亚洲研究院的Li Zhao、Tao Qin和Tie Yan Liu；伊利诺伊大学香槟分校的Jiawei Huang、Jinglin Chen和Nan Jiang。

本文认为：传统的在线强化学习（RL）可以抽象为两个要素的循环：从收集的数据中学习策略和部署策略以通过与环境交互来收集新数据。RL的总体目标是完成对整个环境的探索，并获得接近最优的策略。

然而，在许多实际应用程序中，策略部署可能会非常昂贵，而使用固定策略收集数据相对方便。例如，在推荐系统中，策略就是推荐策略，好的策略可以根据用户的偏好准确地向用户提出建议。为了保证服务质量，在推出新政策之前，公司通常需要进行多次内部测试以进行评估，这需要很多时间（最多几个月）。然而，由于客户群庞大，一旦部署了系统，公司可以在短时间内收集数千或数百万条反馈信息，以便进一步学习政策。在这些应用程序中，组织更喜欢只需几次切换或部署即可学习良好策略的RL算法。然而，现有算法与上述实际场景之间仍存在差距（更多讨论请参阅本文）。

为了缩小差距，研究人员提出了一种称为部署效率强化学习（DE-RL）的新设置，这是一种用于重视部署效率的应用程序的抽象模型。一种被称为部署复杂性的新思想（类似于示例复杂性）提供了一种衡量算法部署效率的方法。部署复杂性是算法返回近似最优策略之前所需的策略部署数量。

在此框架下，研究者以线性马尔可夫决策过程（MDP）为例进行研究，并进行理论分析，以回答两个重要问题。首先，我们能够实现的最佳部署复杂性是什么（下限）？其次，我们如何设计算法以实现最佳部署复杂性（最优）？此外，由于之前的大多数相关文献只研究了仅部署确定性策略的算法，这些研究人员分别考虑了有和无此类约束的两种情况。他们表明，消除这些约束可以显著提高部署效率。

对于上述第一个问题，研究人员构建了硬实例，并分别为dH和H两种情况建立了信息理论下界。对于第二个问题，研究人员提出了通过逐层探索策略实现这些下限的算法（如图2所示），其中研究人员基于新的协方差矩阵估计方法和技术层面的多项创新贡献了一个新的算法框架。最后，研究人员讨论了基于DE-RL公式的扩展设置，这可能是未来研究的一个有趣课题。

模型反向传播策略优化中的梯度信息问题

图3：（a）这显示了学习和使用模型之间的不匹配。这里的模型指的是转移和奖励函数。（b）这说明了DDPPO算法。DDPPO算法分别构建预测模型和梯度模型。DDPPO利用不同的损失来训练不同的模型，然后适当地使用它们。

参与人员和组织：来自微软亚洲研究院的王跃、刘铁岩；北京交通大学李崇冲、刘玉亭；中科院计算技术研究所陈伟，中科院数学与系统科学研究所马志明

本文认为：基于模型的强化学习提供了一种有效的机制，通过与学习环境的交互找到最优策略。在本文中，研究人员调查了模型学习和模型使用中的不匹配。具体来说，要获得策略更新方向，一种有效的方法是利用模型梯度来利用模型的可微性。然而，大多数常用的方法只是将模型学习任务视为一个有监督的学习任务，并在不考虑梯度误差的情况下最小化其预测误差。换言之，该算法需要精确的模型梯度，但我们只学习减少预测误差，这会导致目标不匹配。

本文首先从理论上证明了模型梯度误差在政策优化阶段的重要性。具体而言，估计的政策梯度偏差不仅由学习模型的预测误差引入，还由学习模型的梯度误差引入。这些错误最终将影响政策优化过程的收敛速度。

接下来，本文提出了一种基于两个模型的学习方法来控制预测和梯度误差。本文在模型学习阶段分离了这两个模型的不同角色，并在策略优化阶段对其进行了协调。通过设计一种实用的梯度误差计算方法，可以用它来指导梯度模型的学习。通过利用预测模型和梯度模型，我们可以首先推出轨迹，然后计算模型梯度以获得策略梯度。该算法称为方向导数投影策略优化（DDPPO）。最后，在基准连续控制任务中的实验表明，该算法具有更好的采样效率。

强化学习的变分oracle指导

图4：学习和执行期间的VLOG图，以Q-learning为例。左：学习期间，oracle观察可用。分别使用执行者观察（先验）和oracle观察（后验）估计贝叶斯潜变量z。通过最大化VLOG变分下界来训练整个模型，该下界是后验模型的RL目标函数减去后验和先验z之间的KL散度。右图：在执行期间，只有执行者的观测可用。

参与人员和组织：微软亚洲研究院的韩东琪、罗旭芳、杨玉清和李东生；阿尔伯塔大学的Tadashi Kozuno；合肥国家综合科学中心人工智能研究所；冲绳科学技术研究所的KenjiDoya。

该论文指出：尽管深度强化学习（DRL）最近在各种决策问题上取得了成功，但一个重要但尚未得到充分探索的方面是如何利用oracle观察（在线决策过程中看不到但在离线培训中可用的信息）来促进学习。例如，人类专家将在扑克游戏后查看重播，以便检查对手的手并使用可见信息（执行者观察以改进其游戏策略）。这些问题被称为oracle引导。

在这项工作中，研究人员基于贝叶斯理论研究了oracle引导问题，并得出了利用变分方法在RL中利用oracle观察的目标。本文的主要贡献是为DRL提出了一个通用的学习框架，称为变分潜在oracle指南（VLOG）。VLOG具有较好的特性，例如其鲁棒性和有前途的性能，以及可与任何基于值的DRL算法结合的多功能性。

本文实证证明了VLOG在在线和离线RL域中的有效性，任务范围从视频游戏到麻将，这是一种具有挑战性的基于瓷砖的游戏。此外，作者还发布了麻将环境和离线RL数据集作为基准任务，以促进对oracle指南、游戏AI和相关主题的未来研究。