2012年,人工智能研究人员通过从神经网络向ImageNet数据库提供数百万张带标签的图像,揭示了计算机识别图像能力的重大改进。
它开启了计算机视觉的激动人心的阶段,因为很明显,使用ImageNet训练的模型可以帮助解决各种图像识别问题。
六年后,这为自动驾驶汽车在城市街道和Facebook上自动标记照片中的人铺平了道路。
在人工智能研究的其他领域,如理解语言,类似的模型已被证明是难以捉摸的。 但最近来自fast.ai,OpenAI和Allen Institute for AI的研究表明,潜在的突破,更强大的语言模型可以帮助研究人员解决一系列未解决的问题。 其中一个新车型的研究员塞巴斯蒂安·鲁德称其为“ImageNet时刻”。
这种改进可能是戏剧性的。迄今为止,测试最广泛的模型被称为嵌入式语言模型(ELMo)。
当艾伦研究所今年春天发布它时,ELMo迅速颠覆了之前在各种挑战性任务上的最佳成绩(比如阅读理解,AI回答关于文章的SAT式问题,以及情感分析)。
在一个进步趋于递增的领域,添加ELMo可以提高25%的结果。6月,它在一次重要会议上被授予最佳论文。
加州大学伯克利分校的计算机科学教授Dan Klein是早期采用者之一。他和一名学生正在研究一个选区解析器,这是一个简单的工具,包括绘制句子的语法结构。
通过加入ELMo,Klein突然拥有了世界上最好的系统,以惊人的大幅度精确。“如果几年前你问我是否有可能达到这么高的水平,我不会确定,”他说。
像ELMo这样的模型解决了使用人工智能的语言学家的一个核心问题:缺少标记数据。为了训练神经网络做出决策,许多语言问题需要手工精心标注的数据。
但是产生这些数据需要时间和金钱,甚至很多数据都无法捕捉我们说话和写作的不可预知的方式。对于英语以外的语言,研究人员通常没有足够的标注数据来完成甚至基本的任务。
艾伦研究所(AllenInstitute)领导ELLMo团队的研究学家马修·彼得斯(Matthew Peters)表示:“我们永远无法获得足够的标记数据,我们确实需要开发能够获取杂乱,无标签数据并尽可能多地学习的模型。”
幸运的是,多亏了互联网,研究人员从维基百科、书籍和社交媒体等来源获得了大量杂乱的数据。
策略是将这些单词输入神经网络,让它自己识别模式,这就是所谓的“无监督”方法。
希望这些模式能捕捉语言的一些一般方面(可能是对什么是单词的感觉,或者是语法的基本轮廓)。
就像使用Image Net训练的模型一样,这样的语言模型可以被微调以掌握更具体的任务(比如总结一篇科学文章,将电子邮件分类为垃圾邮件,甚至为一篇短篇小说创造令人满意的结尾)。
这种基本直觉并不新鲜。近年来,研究人员使用一种叫做单词嵌入的技术来研究未标记的数据,这种技术根据单词在大量文本中的表现来映射单词之间的关系。
新模型的目标是更深入,捕捉从单词到更高级语言概念的信息。
Ruder写过关于这些更深层模型对各种语言问题有用的潜力,希望它们能成为单词嵌入的简单替代品。
例如,ELMo通过融入更多的上下文,从句子而不是单词的角度来看待语言,从而改进了单词嵌入。
这个额外的上下文使得这个模型善于分析例如“May”(月份)和“May”(可能)这个动词之间的区别,但是也意味着它会学习语法。
ELMo通过了解单词的子单元,如前缀和后缀,获得了额外的提升。像彼得斯的团队一样,给神经网络输入10亿个单词,这种方法证明非常有效。
还不清楚模型在分析所有这些单词的过程中实际学到了什么。由于深层神经网络的工作方式不透明,这是一个很难回答的问题。
研究人员对图像识别系统为什么工作得这么好仍然只有模糊的理解。
在10月的一次会议上,彼得斯发表了一篇新论文,采用了一种经验方法,在各种软件设计和不同语言任务中使用ELMo进行实验。“我们发现这些模型学习语言的基本特性,“彼得斯说。但他警告说,其他研究人员需要测试ELMo以确定模型在不同任务中的稳健程度,以及它可能包含的隐藏意外情况。
一个风险是:对用于训练他们的数据中的偏见进行编码,因此医生被标记为男性,护士被标记为女性,例如,就像单词嵌入之前所做的那样。
Klein说,虽然通过点击ELMo和其他模型产生的初步结果令人兴奋,但不清楚这些结果能被推进多远,也许通过使用更多的数据来训练模型,
或者通过添加约束来迫使神经网络更有效地学习。从长远来看,像我们一样流利阅读和说话的人工智能可能需要一种全新的方法。
安迪·伍德和马特·基尔申(Andy Wood)通过使用不同年龄组的儿童进行语言测试,测试日常人工智能的范围,这些测试旨在确定哪种人工智能最适合了解大多数人。
| 留言与评论(共有 0 条评论) |