服务粉丝

我们一直在努力
当前位置:首页 > 财经 >

WSDM 2023 | 学习蒸馏图神经网络

日期: 来源:PaperWeekly收集编辑:郭雨心


©作者 | 郭雨心
单位 | 北京邮电大学
来源 | 北邮GAMMA Lab

图神经网络 (GNNs) 能够有效地获取图的拓扑和属性信息,在许多领域得到了广泛的研究。近年来,为提高 GNN 的效率和有效性,为 GNN 上配置知识蒸馏成为一种新趋势。然而,据我们所知,现有的应用于 GNN 的知识蒸馏方法都采用了预定义的蒸馏过程,这些过程由几个超参数控制,而不受蒸馏模型性能的监督。蒸馏和评价之间的这种隔离会导致次优结果。

在这项工作中,我们旨在提出一个通用的知识蒸馏框架,可以应用于任何预先训练的 GNN 模型,以进一步提高它们的性能。为了解决分离问题,我们提出了参数化和学习适合蒸馏 GNN 的蒸馏过程。

具体地说,我们没有像以前的大多数工作那样引入一个统一的温度超参数,我们将学习节点特定的蒸馏温度,以获得更好的蒸馏模型性能。我们首先通过一个关于节点邻域编码和预测分布的函数将每个节点的温度参数化,然后设计了一种新的迭代学习过程来进行模型蒸馏和温度学习。我们还引入了我们的方法的一个可扩展的变体来加速模型训练。

在 5 个基准数据集上的实验结果表明,我们提出的框架可以应用于 5 个流行的 GNN 模型,并使其预测精度平均相对提高 3.12%。此外,可扩展的变体模型以 1% 的预测精度为代价,使训练速度提高了 8 倍。


论文标题:
Learning to Distill Graph Neural Networks

论文链接:

https://dl.acm.org/doi/abs/10.1145/3539597.3570480



简介

图神经网络 (GNNs) 已经成为最先进的图上的半监督学习技术,并在过去的五年中受到了广泛的关注。数以百计的图神经网络模型已经被提出并成功地应用于各种领域,如计算机视觉、自然语言处理和数据挖掘。近年来,在图神经网络中加入知识蒸馏来达到更好的效率或效果是一种新趋势。

在知识蒸馏中,学生模型通过训练来模仿预先训练的教师模型的软预测来学习知识。从效率的角度来看,知识蒸馏可以将深层的图卷积神经网络(GCN)模型(教师)压缩为浅层模型(学生),从而实现更快的推理。从有效性的角度来看,知识蒸馏可以提取图神经网络模型(教师)的知识,并将其注入到设计良好的非图神经网络模型(学生)中,从而利用更多的先验知识,得到更准确的预测结果。

除了教师和学生的选择,蒸馏过程决定了教师和学生模型的软预测在损失函数中如何匹配,也对蒸馏后的学生对下游任务的预测表现至关重要。例如,全局超参数“温度”在知识蒸馏中被广泛采用,它软化了教师模型和学生模型的预测,以促进知识转移。

然而,据我们所知,应用于图神经网络的现有知识蒸馏方法都采用了预先定义的蒸馏过程,即只有超参数而没有任何可学习的参数。换句话说,蒸馏过程是启发式或经验式设计的,没有任何来自蒸馏学生的监督,这将分离蒸馏与评价,从而导致次优结果。针对现有的图上知识蒸馏方法的上述缺点,本文提出了一种参数化蒸馏过程的框架。

在本工作中,我们的目标是提出一个通用的知识蒸馏框架,可以应用于任何预训练过的图神经网络模型,以进一步提高其性能。注意,我们关注的是蒸馏过程的研究,而不是学生模型的选择,因此,就像 BAN 建议的那样,简单地让一个学生模型拥有与其老师相同的神经结构。为了克服蒸馏和评估之间的隔离问题,我们没有将全局温度作为超参数引入,而是创新性地提出通过蒸馏 GNN 学生的表现来学习特定节点的温度。

本工作的主要思想是为图上的每个节点学到一个特定的温度。我们通过一个关于节点邻域编码和节点预测分布的函数来参数化每个节点的温度。由于传统知识蒸馏框架存在隔离问题,经过蒸馏的学生的性能对节点温度的偏导数不存在,这使得温度参数化中的参数学习有着一定的困难。

因此,我们设计了一种新的迭代学习过程,交替执行准备、提取和学习步骤,用于参数训练。在准备阶段,我们将根据当前参数计算每个节点的温度,并建立基于节点温度的知识蒸馏损失;在蒸馏阶段,学生模型的参数将根据蒸馏损失进行更新;在学习阶段,温度建模中的参数将更新,以提高提取的图神经网络学生模型的分类精度。



预备知识


2.1 节点分类

节点分类是一种典型的图上的半监督学习任务,其目的是对给定的标记节点和图结构中的未标记节点进行分类,被广泛应用于许多 GNN 模型的评估中。形式上,给定一个连通图 是顶点集, 是边集,节点分类的任务是基于图结构 、有标签的节点集 和节点特征 来预测没有标签的节点集 中每个节点 v 的标签。
其中矩阵 X 的每一行 表示节点 v 的 d-dimensional 特征。设 为节点标签的集合,则每个节点的真实标签可以表示为一个 维的独热向量 

2.2 图神经网络

图神经网络可以通过迭代聚合邻居信息,即消息传递机制,将每个节点v编码为 |Y| 维 logit 向量 。在本文中,我们提出的算法不是针对特定的图神经网络模型设计的,而是可以应用于任何图神经网络。因此,我们简单地将图神经网络编码器以黑盒形式描述化为:


其中 是图神经网络中的可学习参数,是在 softmax 函数归一化之后的预测标签分布。然后图神经网络会对每个有标签的节点最小化该节点的真实标签与预测标签之间的距离,通常采用交叉熵损失来训练参数 

2.3 知识蒸馏

在本工作中,我们关注的是蒸馏过程的研究,而不是学生模型的选择。因此,我们只需让教师模型和学生模型具有 BAN 建议的相同的神经结构,并分别表示为 ,参数分别为 和 。给定教师模型的预训练参数,我们将通过对 和 之间的软预测进行对齐,训练学生模型的参数。从形式上讲,知识蒸馏框架旨在优化:


其中第一项是学生预测和教师预测之间的交叉熵,第二项是 中节点的学生预测与真实标签的交叉熵,是平衡超参数。许多知识蒸馏方法会引入额外的温度超参数来软化教师和学生的预测:

其中 是温度超参数。温度等于 1 时对应原始的 softmax 操作。温度越高,预测就越软(趋向均匀分布),而温度越低,预测就越硬(趋向独热分布)。在最流行的蒸馏框架中,所有的温度都被设置为相同的超参数 ,即为每个节点

相关阅读

  • 浅谈在数据包被加密和签名保护时的渗透方式

  • 场景在金融银行类安全测试中,经常见到数据包加密、签名保护,这种业务不能直接进行有效的安全测试,修改数据包参数会重放失败,爬虫见到密文也是懵逼测试套路对于这种业务,不管是手
  • 他,发表第50篇AM!

  • 【做计算 找华算】理论计算助攻顶刊,10000+成功案例,全职海归技术团队、正版商业软件版权!经费预存选华算,高至15%预存增值!成果简介复合材料集各组分的优点于一体,是高效析氧反应
  • 湖北荆州发布中心城区户外广告设置专项规划

  • 为巩固国家卫生城市创建成果,推动全国文明城市创建,近日,湖北省荆州市正式发布《荆州市中心城区户外广告设置专项规划(2022-2035)》。该规划明确,对中心城区户外广告采用“面、线
  • 如何把握“五一”小长假增长机遇?

  • 随着新政策的落实,旅游业正在快速回暖。五一作为防控政策放开后的首个长假节点,将在此期间迎来消费反弹和爆发。除周边游外,用户跨省游、出境游需求旺盛,酒旅商家利用好节点营销
  • 测体温这样的小事,你可能也做错了!进来学习!

  • 这段时间,“甲流”又成了大家关注的热点,许多小伙伴不幸中招,甚至还有学校的个别班级因为感染人数众多而停课。甲流疫情期间,在某短视频平台上,曾有网友分享了自己花 2000 元买了
  • 记一次真实渗透排序处发现的SQL注入学习

  • 为啥叫真实渗透的sql注入“学习”呢,嘿嘿,自然不是本人挖到的,是同事大佬挖到的,本着学习的态度,去复现了下,结果遇到些问题,才有了这篇文章。复现失败大佬发现的这个sql注入非常快
  • Python 爬虫 requests 库教程(附案例)

  • ↓推荐关注↓来源:AI算法科研paper1.requests 库简介Requests 是一个为人类设计的简单而优雅的 HTTP 库。requests 库是一个原生的 HTTP 库,比 urllib3 库更为容易使用。reque

热门文章

  • “复活”半年后 京东拍拍二手杀入公益事业

  • 京东拍拍二手“复活”半年后,杀入公益事业,试图让企业捐的赠品、家庭闲置品变成实实在在的“爱心”。 把“闲置品”变爱心 6月12日,“益心一益·守护梦想每一步”2018年四

最新文章

  • 黄石启动“六五环境日”主题系列活动

  •   23日,市生态环境保护委员会向各成员单位下发《关于开展黄石市2023年“建设人与自然和谐共生的现代化”六五环境日系列活动的通知》,标志着今年我市“六五环境日”主题系列
  • WSDM 2023 | 学习蒸馏图神经网络

  • ©作者 | 郭雨心单位 | 北京邮电大学来源 | 北邮GAMMA Lab图神经网络 (GNNs) 能够有效地获取图的拓扑和属性信息,在许多领域得到了广泛的研究。近年来,为提高 GNN 的效率和有
  • 少坐办公室 多到基层去

  • 少坐办公室 多到基层去注解今年2月,省委优化营商环境领导小组办公室印发《海南省“厅局长走流程、促营商环境提升”工作方案》,提出在全省范围开展“厅局长走流程”活动,让厅局