众包中的机器学习问题研究

被引量 : 0次 | 上传用户:Javayuyu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
众包是一种分布式的问题解决模式。问题发布者将问题以公开招标的方式传播给未知的解决方案提供者群体。监督机器学习需要大量的人工标注数据。众包的发展为获取人工标注数据提供了一个新的方法。众包获取人工标注数据具有廉价、快速、规模大和方便控制等优点。因此得到了机器学习研究人员的广泛关注。众包标注数据虽然很方便,但是质量会有问题。现在很多研究人员提出用重复标注的方式产生冗余的标注数据,在这个数据上用机器学习算法来过滤噪声或者是估计更可靠的标签。本文研究关于众包的三个方面的问题。第一个是标签质量控制问题。考虑到标注者之间的能力差异、标注的样本数据之间的难易程度这两个因素,多数投票方法有很大的改进空间。本文提出鲁棒个人分类器算法,在个人分类器的基础上,能够从特征和标签数据中学习标注者的能力和分类器模型。第二个是标签矩阵补全问题。在现实情况下,每个标注者只能标注部分数据样本,每个数据样本只得到部分标注者的标签。将众包标注者给出标签的过程类比看电影的用户给电影评分,我们提出用结合数据实例相似度的协同过滤算法来估计标注者对未标注数据的标签。最后再聚合真实标签和估计标签来得到更有效的算法模型。第三个是主动学习与众包学习结合的问题。我们将鲁棒个人分类器和主动学习有效结合,来解决众包得到标签过程中的任务路由问题,即如何选择最有信息价值的数据实例和为给定的数据选择最合适的标注者的问题。在仿真特征和UCI机器学习数据上,我们验证了本文提出的算法是有效的。
其他文献
现代企业的发展离不开企业制定的工商管理计划,企业的工商管理包含了企业营利运作的所有活动计划,不仅不如此它也对人才的能力和市场的定位有一套科学的规划。在这篇文章中,
<正>西方经济理论在我国大行其道已有些时日了,由于过往的政治经济学理论和现实经济问题严重脱节,人们纷纷转向所谓现代经济理论,企图从中找到解决
逆冲构造区的构造应力强,层理、裂隙发育,井壁失稳是一个一直困扰着这一地区钻井工程的难题。认识此类构造地应力分布规律是井壁应力状态分析以及井壁稳定性研究的基础。提出
子宫肌瘤是女性生殖器最常见的良性肿瘤。相关文献统计,子宫肌瘤中91.4%-92.5%为普通型良性平滑肌瘤;0.47%-0.8%为平滑肌肉瘤;其余均为特殊类型子宫平滑肌瘤[1-2]。非典型性(又称多形性/奇
随着石油短缺带来的能源危机和废弃塑料引起的“白色污染”日趋严重,对生物降解材料的研究愈来愈引起各国政府和科学家们的重视与关注。本课题在金发科技股份有限公司成功量产
随着中国在经济上的崛起,越来越多的政策制定者和学者们意识到,中美两国在亚太地区的争夺将成为21世纪全球关注的焦点。2008年奥巴马政府执政以来,美国推出“亚太再平衡”战略,其
回顾了全路信号中修工作的历史,并就近10年来中修工作的经验及教训进行了总结。明确第3轮中修的指导思想,提出第3轮中修的工作重点及具体做法。
人民代表大会制度既是我国的根本政治制度,又是我国的代议民主制度,其创立和不断发展,不仅体现了中国共产党关于现代代议制的构想和实践,还体现了中国共产党对治国理政方式和途径
遂宁市农业部门根据川中丘陵地区自然生态特点,在完善推广既有模式的基础上,不断探索筛选新的种植模式,特别是稻-菜-芋(即水稻-蔬菜-冬马铃薯)种植新模式,通过多年的试验示范,
研究以枸杞、仙人掌和葫芦巴3种植物的提取物组成复方,制备香杞平脂咀嚼片并进行质量分析。采用湿法制粒法研制香杞平脂咀嚼片,通过对咀嚼片的外观、口感、硬度等的考查筛选