开源框架-Allen Institute for AI 开源 AI 模型检测工具 LM-Debugger--粉丝服务平台-粉丝头条-fensifuwu.com

开源框架-Allen Institute for AI 开源 AI 模型检测工具 LM-Debugger

科技 06-18 来源：海洋派

Allen Institute for AI (AI2) 开源LM-Debugger ，这是一种交互式工具，用于解释和控制语言模型 (LM) 预测的输出。LM-Debugger 支持任何HuggingFace GPT-2 模型，并允许用户通过动态修改模型神经网络隐藏层中的更新来干预文本生成过程。

该版本由 AI2 研究员 Mor Geva Pipek 在 AI2 博客上宣布。基于之前的工作通过 Geva 及其同事，LM-Debugger 通过 Transformer 网络的隐藏前馈层显示内部令牌表示及其更新。除了支持 HuggingFace GPT-2 模型外，LM-Debugger 还可以“只进行少量本地修改”即可在其他模型上运行。使用系统的交互式 UI，用户可以通过每一层跟踪令牌表示的更新，并可以通过抑制小的子更新来影响模型的输出。在一组实验中，AI2 团队表明，仅更改 GPT-2 中的 10 个子更新就可以将其输出的毒性降低 50%；他们还表明，子更新可以为输出生成中的“提前退出”提供信号，平均节省 20% 的计算。根据团队：

我们的研究结果揭示了现代 LM 的预测构建过程，为可解释性、控制和效率提出了有希望的研究方向。

Transformer 架构已成为深度学习自然语言模型的事实标准。然而，像大多数深度学习模型一样，很难理解为什么模型会产生给定的输出。再加上对有毒或误导性输出的担忧，导致人们对了解此类模型的内部运作的兴趣增加。

Geva 和团队最近发表了一篇论文，研究了某些 Transformer 组件（隐藏的前馈层）如何为模型的最终输出做出贡献。他们表明，这些层可以看作是对输入标记表示的更新，这些更新可以看作是输出词汇表上的分布。更具体地说，每个前馈层可以分解为一组值向量，这些值向量对概念进行编码并执行“促进”或增强某些标记的输出概率的子更新。通过抑制不想要的令牌的提升，可以将模型的输出导向最终输出令牌。

开源框架——Allen Institute for AI 开源 AI 模型检测工具 LM-Debugger

图片来源： https ://github.com/mega002/lm-debugger

利用这种洞察力，AI2 团队构建了一个基于 Web 的 UI，允许用户检查和修改在输出生成期间发生的子更新。该视图显示了层输出分布中的前 10 个标记，可以选择“抑制”其中的任何一个。LM-Debugger 还包含一个搜索功能，它显示了它推广的顶级令牌。这允许用户分析由值向量编码的概念并识别相关值向量的集群。

可解释的人工智能系统是一个活跃的研究课题。2019 年，InfoQ 报道了 AI2 的AllenNLP Interpret 工具包，该工具包使用基于梯度的方法来解释自然语言处理 (NLP) 模型的结果。InfoQ 还介绍了一个名为exBERT的交互式可视化工具，由 MIT-IBM AI Labs 和哈佛 NLP Group 开发。该工具让用户可以探索由仅编码器的 Transformer 模型（例如 BERT）学习的表示。

在 Twitter 上关于 LM-Debugger 的讨论中，Geva 回复了一位询问该系统是否可以应用于 BERT 的用户：