基于自步学习的众包分类数据质量控制模型

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:cjian024156
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
众包(又称人计算、群众智慧)是指公司企业通过公开的方式将任务分发外包给不确定的(一般是大量的)人群。人们相信“多数人的智慧”远远要比个人的判断更为准确。大量的众包平台将任务分发给注册工作者,然后根据标注的数据付相应的工资。在众包分发系统中,对于众包分类数据进行质量评估与控制的模型起着关键的作用。最直观的众包数据质量控制模型就是多数人投票,即将被选中最多的答案标记为正确答案。但这类方法没有考虑到不同实体以及不同工作者之间的差异。本文注意到了这些方法在应用解决实际问题时,假设不同的数据点拥有相同的优先级,这导致该类模型以等概率的方式选择学习工作者的可信度以及实体的标注难度,在标注数据稀疏的情况下,很容易由于少数质量低的标注样本点而影响全局的数据学习。因此,本文提出了基于自步学习的众包分类数据质量控制模型,引入了基于先验以及模型学习情况的样本选择策略,从而引导模型由易到难的选择性学习样本,最终学习完整的数据。在本文中,我们同时从数据本身先验知识以及学习过程中模型情况两个方面定义了质量控制模型中“简单”的概念。此外,本文还从概率图生成模型的角度解释了众包分类数据中自步学习引入的意义以及参数选取的方法。本文在人工数据集和真实数据集上的实验结果表明,本文所提出的框架对比未引入自步学习过程的传统模型有着显著的提升,能够获得更高的准确率。
其他文献
作为5G系统关键技术之一的终端设备直连通信(Device-to-Device,D2D)在提高系统性能、提升用户体验及扩展移动通信系统应用方面具有广泛的前景。在蜂窝网络中引入D2D通信技术,
基于化石能源储量的有限性以及人类社会的可持续发展,寻求可转化为化工原料的替代资源正在逐渐成为全球研究的焦点。本文以生物炼制工业废弃物——玉米秸秆转化生物酒精的残
近几年来国家大力推进建筑工业化发展,重点发展装配式建筑。装配式建筑政策自2015年以来密集出台,助力建筑产业结构技术调整升级。随着装配式结构的发展,对其抗震性能的研究
目的了解安徽省合肥市某区15岁及以上常住居民高血压流行现状,在分析该地区一般人口学因素(包括年龄、性别、婚姻状况、就业状况等)、生活行为方式、膳食因素、既往史及家族
水稻是世界上最为重要的粮食作物之一,建立合理的水分运筹方式,对实现其高产具有重要的意义。茎鞘是水稻源、库之间光合同化物、水分和养分等运输的主要通道,采用合理的栽培
随着电力电子技术的飞速发展,人们开始使用各种智能家用电器等,由于其非线性、冲击性以及不平衡的用电特性引起电能质量的恶化,致使发生了不同的电能质量问题。国内外大量统
丝氨酸整合因子SERINC(Serine incorporater,Ser)是一种膜蛋白家族,其中家族成员Ser5是最新报道能够被携带到人类免疫缺陷病毒I型(HIV-1)病毒粒子中的宿主限制性因子,具有抵
随着全球高血压患病率越来越高,研究者们开始关注抗高血压肽类,期望肽类可以有效抵制高血压病。我国是稻米生产大国,米糠资源丰富,年产米糠约占世界1/3,但米糠大多作为饲料被
目的:探讨同型半胱氨酸(Homocysteine,HCY)及其代谢酶基因多态性与糖尿病肾病的相关性,探寻糖尿病肾病的易感基因,为糖尿病肾病早期预防提供实验依据。方法:本研究收集了295
理解天然断层泥的摩擦本构关系对于理解天然地震的形成、地壳断层的强度和活动断层的力学性质具有重要意义。在中国地震局地质研究所开展的龙门山断层浅钻(LMFD)工程中,我们