论文部分内容阅读
随着互联网技术的快速发展,很多机器智能难以完成的任务,例如情感分析﹑图像标注和蛋白质结构预测等,可以通过众包的方式由诸多在线工人完成。大量的标注任务由传统耗时耗费的专家标注方式转变为相对经济高效的互联网工人标注,加快了数据标注效率,推动了机器学习和数据挖掘领域的发展。然而,由于在线工人的标注质量不确定性,众包标注数据普遍存在噪声,甚至不正确。因此,如何控制众包标注质量具有重要研究价值和广泛应用空间。本文围绕众包标注质量控制问题,从多标记众包答案聚合、任务分配策略及结合主动学习的众包标注这三个角度展开研究,在此基础上开创性探索工人注意力影响的众包标注及质量控制问题,本文的主要工作如下:1、多标记众包答案聚合研究:当从众包平台获取标签时,一个任务可能关联多个标签,即所谓的多标记众包任务。而现有的大多数众包答案聚合方法一般只关注单标记(二分类和多分类)场景,当应用到多标记场景时,由于忽略了标记之间的关联性,因而可能会影响其聚合质量。针对这一问题,本文提出了一种基于联合矩阵分解的多标记答案聚合方法(ML-JMF)。首先,该方法联合不同工人的样本-标记关联矩阵分解为代表不同工人的个体矩阵和一个共享的低秩矩阵。其次,MLJMF利用了低秩矩阵对噪声的鲁棒性,并为个体矩阵分配小(或零)权重来减少不可靠工人的影响。最后利用优化后的低秩矩阵和权重计算聚合的答案。五个多标记众包数据集的实验结果证明了该方法可以有效识别欺诈者并且获得高质量的多标记聚合标签。2、众包任务分配策略研究:合理分配众包任务给工人可在降低标注成本的同时最大化标注质量。在完成众包任务过程中,任务本身的特征往往会影响工人的决策过程。现有的任务分配策略忽视了这一点或者只关注任务特征对答案聚合的影响。针对这一问题,本文提出了一种新的任务分配策略(CrowdWT),以捕捉任务与工人之间的复杂交互,并将任务合理分配给工人。该策略首先提出了一个工人偏好模型(WBM)来联合建模工人的偏好、任务的真值和任务特征。WBM在工人的标注和任务特征之间构建映射关系,以便动态地将任务分配给一组能够提供正确答案的工人。CrowdWT进一步引入了一个任务难度模型(TDM),该模型基于任务特征建立了一个核岭回归函数,用来量化任务的内在困难度。最后,CrowdWT将WBM和TDM整合成一个统一的模型,动态地将困难任务分配给一组更可靠甚至更专业的工人,实验结果表明,CrowdWT能够捕获任务特征对工人决策的影响,且在有限的预算内获得了高质量的标注结果,并且优于对比方法。3、结合主动学习的众包标注研究:大部分现有多标记众包答案聚合方法忽视了不同工人具有不同标注成本,并且任务请求者的预算通常有限。为了解决在有限的预算内获得可靠的标注结果这一问题,本文提出了一种主动多标记众包答案聚合方法(AMCC)。该方法考虑了工人的个性和共性,并假设工人可以分成不同的组。每个组中包含了共享的具有相似标注行为和标记关联的工人。为了获得高质量的聚合答案,AMCC通过采用共性和个性的线性组合对工人的标注结果进行建模,并为不可靠的组分配较小的权重来减少其影响。为了以低成本收集可靠的标注,AMCC引入了一种样本-标记-工人三元组的主动众包学习策略。在该三元组中,被选择的样本-标记对于聚合模型的信息量最大,并且被选择的工人能够以较低的成本可靠地标注该样本。7个多标记众包数据集的实验结果证明了该方法在答案聚合和节约成本等方面优于对比方法。4、基于注意力的众包标注过程建模研究:现有众包质量控制方法都假设工人在连续完成一组任务过程中其标注质量是不变的。但在实际过程中工人的注意力水平会随着时间的推移而变化进而影响标注结果的可靠性。针对这一问题,本文提出一个新且实际的众包场景—注意力引导下的众包标注,并提出对应的概率图模型,该模型建模了工人的注意力变化对标注质量的影响,并采用期望传播算法对模型进行有效贝叶斯推断,还提出了一种广义的期望最大化算法计算任务的潜在真实标签和注意力引导下每个工人的标注质量。另外,该方法可以根据注意力的变化来估计工人适宜的任务数量。实验表明,该方法量化了工人在给定任务上的注意力与标签质量之间的关系,并提高了答案聚合的质量。