多租户人群驱动系统中人类智能任务的调度

论文 :Difallah D E , Demartini G , CudréMauroux, Philippe. Scheduling human intelligence tasks in multi-tenant crowd-powered systems[C]// International Conference on World Wide Web. International World Wide Web Conferences Steering Committee, 2016.

摘要

微任务众包已经成为一种流行的方法,可以有效地解决复杂的数据管理问题,如数据链接、缺失值或模式匹配。然而,由于人类和机器之间固有的效率差异,群驱动系统的后端众包运营商通常比可处理的操作员产生更高的延迟。由于目标众包平台上缺少工人,或者工人在多个相互竞争的请求者之间共享不平等,包括欺诈,这一问题可能进一步加剧。来自同一组织的当前用户执行具有不同类型、优先级和价格的众包查询。在这样的条件下,当前的大众动力系统主要充当众包平台的代理,因此他们很难向最终用户提供有效的保障。

调度是计算机科学中处理此类问题的传统方法,方法是优先访问共享资源。在本文中,我们提出了一种新的众包系统结构。 在共享资源环境中优化任务执行的服务调度算法,在这种情况下是一个众包平台。我们的研究旨在评估在同时运行多种任务的设置中人群的效率。我们提供了大量的实验结果,比较了不同的多租户 众包工作,包括从实际记录中得出的工作量,以及ii)对真实人群工人进行不同的计划技术测试。我们的实验结果表明,在多租户人群驱动的系统中,任务调度可以被利用来实现公平性和减少查询延迟,尽管与之相比有很大的不同。 传统的设置不包括人为因素。

简介

多亏了微任务众包平台,现在有可能构建混合的人机交互系统,将计算机的可扩展性与人脑的但不匹配的认知能力结合起来。

微任务众包已经被用于在其他数据库系统、图像搜索或机器学习算法中提供动力。在这些系统中,人和机器的行为从根本上是不同的:虽然机器可以处理大量的数据,但具有实时流,并且与系统交互的并发用户的群集中,众包主要用作面向批处理的离线 数据处理范例与实现低延迟是关键的情况相反。造成这一差距的主要原因在于众包平台无法为任务完成时间提供保证,原因是人群工作人员的不可预测性。 在任何时间点都可以自由地来来去去,并且只可以有选择地专注于任务的任意子集。

随着围绕学术和商业目的众包的势头增强,管理众包平台交付成果和完成任务的效率成为挑战。到目前为止,效率问题主要是通过调整人类智力任务(HITS)的价格或通过在众包平台上反复重新发布来解决的。在本工作中,我们建议控制来自多租户集群系统的任务分配过程,在这些系统中执行多个和潜在的异构命中。这个允许我们应用调度技术来决定哪些任务由下一个可用的工作人员执行。

我们应用、调整和经验性地评估了一系列调度技术,这些技术可以被多租户人群驱动的系统用来在众包平台上启动点击,以改进整体效率。为此,我们提出了一种系统架构及其专门针对AMT的实现,其面向系统的目标如下:改善所产生的工作量的总体执行时间,同时确保系统不同用户之间的公平,公平地平衡可用的员工队伍,并避免使用较小请求的处理。

从员工的角度来看,任务计划带来了新的挑战,如上下文切换和用户启动。因此,我们试图回答以下问题:“已知的调度算法” 当应用于人群时,它的常用属性是什么?”以及“是适应人群工作计划所需的调整吗?”。

据我们所知,本文是第一篇以应用调度技术来提高人群驱动系统效率的工作。当我们的注意力集中在本文件的范围之外,考虑到质量约束来进行调度决策。

综上所述,本文的主要贡献是:1. 一种新提出的多租户人群驱动系统的众包体系结构,该体系结构的重点是对命中调度进行改进系统效率;2. 为多用户服务的人群驱动系统的命中调度层;·为人群定制的一系列调度算法;3. 广泛的经验评估比较 对人群中的调度算法进行控制设置,以及在实际部署中进行调度。

多租户集群系统的体系结构

我们现在描述了一种新的调度架构,它可以集成到一个典型的人群驱动系统中。我们设计这个架构是为了在任何众包平台上运行,尽管我们会把重点放在关于AMT作为目标平台的剩余描述。

我们通过引入命中包的概念来研究AMT上众包的调度技术,即一个批处理容器,在该容器中,可以发布具有类似复杂性和奖励的异构命中。 连续通过AMT上的大众动力系统。我们展示了HIT-BundLE的概念不仅允许应用不同的调度策略,而且还可以产生更高的整体吞吐量。

我们的一般框架如下图所示。我们系统的输入来自通过众包接口提交的不同众包查询。众包决策引擎 将查询的部分(及其输入)提取到众源的作用。随后,命中管理器与给定的货币预算一起生成命中批,并将其请求传递给 我们的命中计划。这与传统的群众性系统形成了鲜明的对比,在这种系统中,批次直接发送到众包平台。

命中调度器的目标是提高选定命中的执行时间。一旦生成了新的命中批次,就会将它们放入一个任务容器中,这些任务将被众包。调度程序通过AMT的应用程序编程接口(API)不断监控工作进度,并根据调度算法动态地将下一个命中分配给下一个可用的工作人员。更具体地说,命中计划程序在其批目录中收集由命中管理器生成的一组命中批次,以及它们的奖励和优先级。

最后,命中包管理器在AMT上创建众包批处理。根据所采用的调度算法,生成一个命中队列(指定命中包中下一个必须服务哪个命中),并定期更新。一旦工作人员可用,命中调度程序就会服务队列中的第一个元素。当点击完成后,收集结果并将其发送回系统进行聚合、合并,并将最终结果转发给最终用户。允许工人不接受(或返回)他们不愿意完成的点击。工人也可以随时离开这个系统。在这些情况下,计划程序负责更新队列并重新安排未完成的HIT。

实验

在我们的实验中,我们使用了一个由7批不同复杂度、大小和参考价格组成的数据集。这些数据部分是由我们创造的,一部分是从相关作品中收集的,包括 由人群驱动系统产生的典型任务。下表给出了我们的数据集的摘要,并在适用时提供了简短的描述和参考。我们注意到,为了我们的实验目的,我们会根据不同的设置来改变批次的大小和价格。

实验结果

根据我们的实验结果,我们得出的结论是,我们认为最适合的调度技术是WCFS变体,它允许在人群中公平对待命中批次。 我们的平台,还考虑到员工的需求,在他们关注的问题上有一定的连续性,而不是潜在地导致他们不断地切换上下文。在员工方面,我们确定了两个关键特性,使人群工作者执行任务的方式与机器非常不同:(1)人群工作者在更改ta类型后会受到上下文切换的影响。 (2)他们被大量的命中批次所吸引,这保证了连续的点击率,从而保证了收入的增加。我们注意到,为了获得更好的执行时间,例如,增加与点击相关的金钱奖励是可能的。然而,这种奖励的增加会使众包成本上升。 因此,阻碍了该方法的可伸缩性。此外,提高奖金为垃圾邮件发送者打开了一扇大门,他们只关心金钱报酬,而不是诚实地对金钱报酬感兴趣。

总结

在共享人群驱动的系统环境中,多个用户(或租户)定期发出查询,触发预定义的人群操作员,从而导致独立的众包任务发布在目标众包平台。在本文中,我们提出并通过实验证明了分片策略不是最优的,并且通过将请求捆绑到一批中,可以提高整个系统的效率。 我们称之为:命中包,然后控制任务的分配过程,即调度。我们的实验表明,这种方法有两个好处:第一,它产生了更大的批处理,具有更高的吞吐量;第二,它给系统提供了关于下一个要推送什么的控制-这是我们的一个特性。 例如,利用来推送高优先级请求。此外,控制任务执行可以开发更复杂的众包操作人员,例如工作流执行、协作任务。

据我们所知,这是第一项使人群驱动的系统控制他们的命中执行时间表的工作,目的是提高他们的整体效率。我们的体系结构及其AMT定制的实现可以通过多种方式进行查询优化和为复杂SLA提供动力。

本文主要贡献

本文的主要贡献是:(1) 提出一种众包系统架构,它实现了新提出的多租户人群驱动系统,重点关注命中调度,以提高系统的效率;(2) 为多用户服务的人群驱动系统的命中调度层;(3) 为人群定制的一系列调度算法;(4)一项广泛的经验评估,比较人群中的调度算法,无论是在受控环境下还是在实际部署中。

致谢

本转述工作部分得到国家重点研发计划“信息产品及科技服务集成化众测服务平台研发与应用 (2018YFB1403400)”资助

发表评论
留言与评论(共有 0 条评论)
   
验证码:

相关文章

推荐文章

'); })();