论文部分内容阅读
众包是一种分布式的问题解决模式。问题发布者将问题以公开招标的方式传播给未知的解决方案提供者群体。监督机器学习需要大量的人工标注数据。众包的发展为获取人工标注数据提供了一个新的方法。众包获取人工标注数据具有廉价、快速、规模大和方便控制等优点。因此得到了机器学习研究人员的广泛关注。众包标注数据虽然很方便,但是质量会有问题。现在很多研究人员提出用重复标注的方式产生冗余的标注数据,在这个数据上用机器学习算法来过滤噪声或者是估计更可靠的标签。本文研究关于众包的三个方面的问题。第一个是标签质量控制问题。考虑到标注者之间的能力差异、标注的样本数据之间的难易程度这两个因素,多数投票方法有很大的改进空间。本文提出鲁棒个人分类器算法,在个人分类器的基础上,能够从特征和标签数据中学习标注者的能力和分类器模型。第二个是标签矩阵补全问题。在现实情况下,每个标注者只能标注部分数据样本,每个数据样本只得到部分标注者的标签。将众包标注者给出标签的过程类比看电影的用户给电影评分,我们提出用结合数据实例相似度的协同过滤算法来估计标注者对未标注数据的标签。最后再聚合真实标签和估计标签来得到更有效的算法模型。第三个是主动学习与众包学习结合的问题。我们将鲁棒个人分类器和主动学习有效结合,来解决众包得到标签过程中的任务路由问题,即如何选择最有信息价值的数据实例和为给定的数据选择最合适的标注者的问题。在仿真特征和UCI机器学习数据上,我们验证了本文提出的算法是有效的。