斯坦福问答数据集(SQUAD)是一个阅读理解数据集,通过众包从维基百科中提问,其中每个问题的答案是来自相应阅读段落或问题的一段文本或跨度。 也可能无法回答。

SQUAD2.0在2018年发布,已经吸引了大批顶尖实验室的测试。SQUAD2.0有15万个问题(包括1.1的10万和新的5万)。在回答2.0的问题时候还要确定是不是有答案。
在SQUAD榜单中,目前排名第一的是哈工大和讯飞联合实验室的成绩,在EM(精准匹配率)和 F1(模糊匹配率)两项指标中都取得了第一的成绩,结果分别是87.147和89.474。也是榜单中目前唯一超越人类基准的成绩(目前人类基准成绩是86.831和89.452)。这项成绩是2019年3月份提交的,使用的方法是BERT + DAE + AoA (ensemble)。
排名第二的是Layer 6 AI实验室,成绩是86.730和89.286,提交时间是2019年3月15日,方法是BERT + ConvLSTM + MTL + Verifier (ensemble)。Layer 6 AI是加拿大多伦多的一个人工智能创业公司,目前Layer 6 AI实验室有35个人,其中13名博士,他们实验室的人来自于18个国家。
排名第三的是Google AI Language团队,成绩是86.673和89.147,方法是BERT + N-Gram Masking + Synthetic Self-Training (ensemble),提交时间也是2019年3月份。
目前该榜单最新提交的是6月9日,无名氏提交,成绩是第18名,81.731和84.862。方法是BertCNN (single model),这是一个单模型的方法。目前单个模型最好的是第四名的XLNet。这也是最近大放异彩,在20项任务中超越BERT的模型。果然是厉害啊。
不过从榜单也可以看出,集成学习确实比单个模型好不少,即便是牛逼如XLNet的模型,也只能屈居第四,不过五月份出来的XLNet目前还没看到和其他方法的集成,假如能和BERT等模型集成一起,相比也是有超越第一的可能的。
附前十名榜单:
| 留言与评论(共有 0 条评论) |