龙空技术网

奖励抑或惩罚: 众包环境下人员激励机制的统一方案

慕测科技 134

前言:

如今各位老铁们对“惩罚函数法c语言”大体比较珍视,我们都需要剖析一些“惩罚函数法c语言”的相关资讯。那么小编也在网络上收集了一些对于“惩罚函数法c语言””的相关资讯,希望看官们能喜欢,朋友们一起来了解一下吧!

1摘要

众包是一个很有前途的平台,通过请求者向一群半熟练的工人广播大量的任务,得到可靠的解决方案。在本文中,我们考虑了一个众包社区的四个关键评价指标(即质量、成本、延迟和平台改进),并证明这些指标涉及三个利益相关者的利益,即请求者、工人和众包平台。由于这三个利益相关者之间的激励总是相互冲突的,为了提升众包社区的长远发展,我们从整个众包社区的角度出发,设计了一个众包机制,将利益相关者的激励机制统一起来。具体来说,我们根据员工的报告解决方案给予奖励或惩罚,而不是只给予非负报酬。此外,我们还找到了一系列合适的奖罚函数对,计算了员工的个人订单值,根据员工的报告信念和个人历史表现,可以提供不同的奖罚金额,同时又能保持员工的激励。该机制有助于延迟控制,促进众包社区的质量和平台演化,提高上述四个关键评价指标。理论分析和实验结果分别验证和评价了提出的机理。

2介绍

基于众包行业和学术界的现状,我们总结了当前众包社区的四个关键评价指标,即质量、成本、延迟和平台改进。1)质量。在典型的众包环境中员工的薪酬只是与她完成的任务量成比例。因此,员工倾向于承担自己不擅长的任务,或者在每个任务上花费更少的精力和时间,从而降低了报告的质量。2)成本。成本控制的重点是如何激励员工以最小的成本做到最好。每个工人都试图最大化自己的报酬,而请求者的目标是用最少的成本实现高质量的任务最终解决方案。3)延迟。延迟控制非常重要,因为请求者完成所有任务的实际总完成时间可能超过了请求者设置的时间限制。当专业人员不足或大多数普通工作人员的任务都比较困难时,可能会出现过多的延迟。4)平台改进。关于众包社区可持续发展的平台改进目标。这包括吸引更多专业或可靠的员工,同时防止行为不端的员工涌入众包平台。但重要的是,目前还没有明确提出和研究平台改进。

从上面描述的四个关键评价指标,我们证明了众包社区涉及三个利益相关者的利益,即请求者、工人和众包平台。三个利益相关者之间的激励机制总是相互冲突的。这对四个关键的评价指标产生了负面影响,会阻碍整个众包社区(主要是指三个利益相关者)的长期发展。例如,如果一个工人的目标是挣更多的钱,她可能会试图在固定的时间成本内完成尽可能多的任务,从而导致报告质量低下;如果她还想获得较高的支持率,她可能会跳过困难的任务(跳过是大多数众包平台支持的功能),从而导致过多的延迟。如果工人和求职者不能达成共识,他们可能会离开众包社区跳槽,这将严重损害众包平台。因此,完善这四个关键评价指标的关键是要站在整个众包社区的角度出发,设计一个能够将众包社区中三个利益相关者的激励机制结合起来的机制。

3假设的验证

提出的机制主要基于以下假设:所有的工人都认为,在大多数情况下,他们观察到的是每个任务的真实解,而这个解只会受到无偏噪声的干扰。支持这一假设的一个例子是,同一个教室里的一些工作人员被要求计算学生人数,他们自己做决定,不允许彼此交流。一个与上述假设截然不同的假设是,一个工人可以获得其他工人的意图或偏好。

为了验证我们的假设,我们在CrowdFlower上对500名员工进行了问卷调查。在本次调查中,我们要求员工在执行众包任务时,报告需要考虑其他员工对CrowdFlower态度的案例百分比,即,我们的假设在真实的众包社区中成立的概率。根据问卷调查结果显示,近95%的员工认为我们的假设成立的概率大于0.6,而超过80%的员工认为这个概率大于0.8。请注意,这个假设并不一定适用于所有的设置,但是,它在大多数情况下都适用于真正的众包社区。我们继续在另一个名为MTurk的众包社区对400名员工进行问卷调查,这是一个像CrowdFlower一样著名的众包社区。结果显示,近92%的员工认为我们的假设成立的概率大于0.6,而超过84%的员工认为这个概率大于0.8。

4激励机制设计

该机制的基本思想如下。该机制的基本思想如下。工作人员需要报告任务的类型和信念值。引入信念的原因是,人们在面对决策问题时,由于问题本身的难度、经验和专业知识的不同等原因,总是会有意无意地估计出给出正确答案的不同概率。使用报告元组< type,多个工作者对同一任务的信念>,设计了一种机制来利用它们生成任务的基准解决方案及其最终真实的解决方案。如果工作人员的报告类型与基准解决方案相同,那么她将从请求者那里获得奖励,否则她必须向请求者支付一定的代价。其基本原理是,前者对生成任务的基准解决方案有积极的影响,而后者则相反。此外,对于一个报告元组,由于报告元组的影响随着信念值的增加而增加,奖励和惩罚的金额与员工的报告信念呈正相关。我们应该找到合适的奖惩功能,当且仅当员工如实报告类型和相关信念时,员工才能获得最大的预期报酬。

该机制由判决规则、奖惩规则和最终生成规则三部分组成。如图3所示,判断规则将报告类型作为输入来判断员工是否应该得到奖励或惩罚,而不是在现有的大多数研究中只支付非负报酬;奖惩规则根据举报信念决定奖惩金额;最终生成规则根据报告类型和信念生成任务的最终解决方案。判断规则与奖惩规则的结合,促使员工对给定的任务如实报告自己的类型和信念。最终的生成规则有助于生成可靠的最终解。

判断规则。在这项工作中,我们只关注二进制类型的任务(任务的候选解决方案是二选一的,如Y/N,A/B)。

假设一个请求者在众包平台上发布了T个任务,总共有N个工人参与了这些任务。任务t取值为{1,2,3…T},工人n,取值为{1,2,3…,N};由于都是二选一的任务,我们可以令任务解决方案值为{-1,1};则Yn,t表示工人n完成了任务他t, St表示完成任务t的工人们。则公式1的值就是判断基准。根据公式二种Yn,t是否与判断基准是否一致,判断是否给予奖励或者处罚。

将刑罚纳入现实的众包激励机制是有可能的。原因是1)众包平台并不总是试图吸引尽可能多的工人。例如,为了提高质量,MTurk在2012年决定不接受新的国际工人账户,尽管这会导致大量国际工人流失。2)工人对错误答案的信心应该受到与信心值相关的惩罚。因此,强迫员工为他们糟糕的表现买单可能是一种选择。然而,目前的众包平台,如MTurk,并没有采用惩罚作为激励机制的一部分。

Reward and Penalty Rule。经过一系列公式推导,最终得出奖励惩罚函数为:

其中c为工人对任务判断的真正信仰值。K为奖罚函数对的顺序。

对于一个工作者来说,为她提供的答案提供信仰的确切价值是非常困难的。期望增益函数在[0.5,1]范围内是一个凹函数,在精确值处只有一个峰值。如果员工提供的信念价值更接近真实价值,她将获得更多。因此,提供准确的信仰价值是最好的,但不是必要的。

另一个不容忽视的事实是,每个任务背后都有一个信念价值,而工作人员可能会给出不同的估计信念价值。每个任务背后的信念值可以被认为是这个任务得到正确解决方案的概率。我们将其命名为真正的信仰价值c,但是真正的信仰价值并不是众包平台和每一个工人都能获得的。

Final Generating Rule。判断规则中的基准解决方案概念认为员工的报告信念是一致的,这与实际情况并不一致。因此,基准测试解决方案不能被认为是任务的最终真实解决方案。事实上,具有较大报告信念值的报告类型比较小的报告类型更可靠。因此,一个好的最终生成规则应该考虑这个信念值。接下来,我们提出了最终生成规则。

含义与上一致。

基准解决方案和最终生成解决方案。基准解决方案由简单多数原则生成,以确定是奖励还是惩罚工人。连同来自工作人员的每个报告解决方案的报告信念值,基准解决方案甚至可以确定奖惩金额。简单多数原则自然继承了简单多数原则的优点。然而,基准测试解决方案认为工作人员的报告解决方案是平等的,而不考虑不同的报告信念值,由于较大的信念值意味着更可靠的报告解决方案,因此在生成最终生成解决方案时必须考虑到它。由于增益函数有很多优点,我们将其作为加权多数规则中报告解的权重,并将结果作为最终生成规则。综上所述,基准解和最终生成解在所提出的机制中具有截然不同的功能,没有一个是不可缺少的。

首先,我们定义了报告的实用性。然后我们证明,在提议的机制下,对于一个请求者来说,雇佣行为不良的工人并不一定比雇佣专业工人花费更多的成本。这一结论与早期的作品或当前的众包社区有很大的不同。最根本的原因是,在这些工作中,一旦判定工人的报告类型是正确的,不管报告类型的可靠性如何不同,请求者都应该向她支付相同的金额。而且,请求者总是给工人非负报酬,而不是给报告类型错误的工人罚款。因此,为了在成本限制下得到更可靠的答案,请求者总是尽量选择专业的工人来完成任务,同时避免行为不端的工人。

5众包社区改善

与众包社区的其他三项关键评价指标相比,平台改进往往在一定程度上被忽视。然而,它可能会对工人、请求者和众包平台产生巨大的影响。仍然以MTurk为例,行为不端的国际工人涌入MTurk只是为了钱,而MTurk无法有效地控制各国工人的报告质量。这就导致了MTurk决定不再接受新的国际工人账户,因为工作质量稳步下降,请求者开始抱怨或离开MTurk。

与目前的众包平台(如MTurk、CrowdFlower)相比,在固定的请求者成本下,该机制下的专业人员可以获得更多的收益,而行为不端的员工每项任务的收益更低,证据如下:

相比之下,该机制可以吸引专业人才进入众包社区,挤出表现不佳的人才,有利于平台的改进。这个性质由命题2保证。我们需要做的是利用个人订单值k,支付给行为不端的工人低于他们可以接受的阈值,支付给专业工人高于阈值。

在目前的众包平台中,如果一个员工的评估可靠性低于一定的阈值,她会跳过这个困难的任务,而不是给出一个难以置信的猜测解决方案。与此同时,请求者无法成功地及时收集工人的报告。但是大多数工作人员跳过的任务将会落后,这将导致过度的延迟。因此,过度的延迟是一种双输的情况,在这种情况下,两个参与者的利益都受到了侵害。

而在提议的机制下,当员工对一项困难任务的评估可靠性非常低时,她可以报告一个非常小的信念值(接近0.5),以及她的报告类型,只需要支付很少的报酬。同时,请求者可以为每个任务收集足够的报告。这样,困难的任务就不会落后,也不会出现过多的延迟。也就是说,所提议的机制可以通过延迟控制使工作人员和请求程序都受益。

6实验:

实验结果表明,该机制可以有效地避免过度延迟的发生,该机制可以在相同的成本和总完成时间下完成更多的任务,该机制可以帮助提高众包社区的报道质量。

7 结论

在本文中,我们证明了一个众包社区涉及到请求者、工人和众包平台这三个利益相关者的利益,三者之间的激励总是相互冲突的。我们已经提出并验证了假设所有工人认为,在大多数情况下他们观察每个任务的真正解决摄动只有公正的噪音,和设计一个众包机制,包括一系列适当的奖罚函数对和工人的个人订单值,使不同利益相关者的利益,这验证了理论分析和实验结果。这项工作可以帮助众包社区的平台和请求者减少对员工执行众包任务的努力程度和能力的监控,节省请求者的成本,吸引更多的专业人员加入众包平台。它可以促进整个众包社区的长期发展。

致谢

本文由中国科学院软件研究所2017级硕士生皇甫幼峰翻译转述。

标签: #惩罚函数法c语言