6月AI新进展-MIT数据科学交互系统/谷歌图表示模型/微软新NLP模型

科技 07-02 来源：数据学习DataLearner

Invector Labs 总结了2019年6月最后一周的AI进展，这里我们列举AI在学术界的三个进展给大家介绍一下。

惊艳的交互数据科学系统

在令人印象深刻的机器学习和用户体验展示中，来自麻省理工学院（MIT）的AI研究人员推出了一个名为Northstar的相互作用数据科学系统。

在钢铁侠电影中，托尼·斯塔克使用全息计算机将三维数据投射到空气中，用双手操纵它们，并找到修复他的各种麻烦。同样，麻省理工学院和布朗大学的研究人员现在开发了一个在触摸屏上运行的交互式数据分析系统，让每个人都能这样解决现实问题。

在ACM SIGMOD会议上发表的一篇论文中，研究人员详细介绍了Northstar的一个新组件，称为“虚拟数据科学家”的VDS，它可以立即生成机器学习模型，以便在其数据集上运行预测任务。例如，医生可以使用该系统来帮助预测哪些患者更容易患某些疾病，而企业主可能希望预测销售情况。如果使用交互式白板，每个人也可以实时协作。这个系统非常有意思，大家可以去看看。

http://news.mit.edu/2019/drag-drop-data-analytics-0627

谷歌最新的图形表示学习

Google AI研究人员发表了一篇关于图形表示学习的新改进的论文，这种技术可以简化许多深度学习模型。

表示实体之间关系的关系数据在Web和物理世界中普遍存在。鉴于图形的普遍存在，图形分析在机器学习中起着重要作用，应用于聚类，链接预测，隐私等。为了将机器学习方法应用于图形（例如，预测新的友谊，或发现未知的蛋白质相互作用），需要学习适合在ML算法中使用的图形的表示。

然而，图形本质上是由诸如节点和边缘的离散部分组成的组合结构，而许多常见的ML方法（如神经网络）有利于连续结构，特别是矢量表示。矢量表示在神经网络中尤为重要，因为它们可以直接用作输入层。为了解决在ML中使用离散图表示的困难，图嵌入方法学习图的连续向量空间，将图中的每个节点分配给向量空间中的特定位置。这方面的一种流行方法是DeepWalk中引入的基于随机游走的表示学习。

谷歌最近发表了两篇关于图嵌入的论文。第一篇论文介绍了一种新技术，用于学习每个节点的多个嵌入，从而能够更好地表征具有重叠社区的网络。第二部分解决了图嵌入中超参数调整的基本问题，允许用户轻松部署图嵌入方法。在Google Research github存储库中已经发布了用于图嵌入的两篇论文的代码。

代码地址：https://github.com/google-research/google-research/tree/master/graph_embedding

官方介绍：https://ai.googleblog.com/2019/06/innovations-in-graph-representation.html

微软最新的预训练方法

微软研究院发表了一篇论文，介绍了一种预训练方法，该方法在语言生成任务方面远远超过了类似的最先进方法。

自2018年以来，预训练毫无疑问成为自然语言处理（NLP）中最热门的研究课题之一。通过利用BERT，GPT和XLNet等通用语言模型，在自然语言理解方面取得了重大突破。然而，按顺序进行基于序列的语言生成任务，流行的预训练方法尚未取得显着的改进。现在，微软亚洲研究院的研究人员已经推出了MASS--一种新的预训练方法，可以获得比BERT和GPT更好的结果。

考虑到基于序列到序列的语言生成任务，Microsoft Research Asia的机器学习小组设想了一种新的预训练方法。我们称它为MASS：Masked Sequence to Sequence Pre-Training。 MASS随机屏蔽长度为k的句子片段，并通过encoder-attention-decoder框架预测该屏蔽片段。该方法的主要特点如下：

decoder侧的其他tokens（未在encoder侧屏蔽的）被屏蔽，这可以促使decoder提取更多信息以帮助预测句子片段。这使得encoder-attention-decoder被强制联合训练。
为了给decoder提供更多有用的信息，encoder被迫在encoder侧提取未屏蔽的token的含义，这可以提高encoder在语言理解方面的能力;
decoder被设计为预测连续tokens（句子片段），这可以改善decoder的语言建模能力。

https://www.microsoft.com/en-us/research/blog/introducing-mass-a-pre-training-method-that-outperforms-bert-and-gpt-in-sequence-to-sequence-language-generation-tasks/