论文部分内容阅读
近几年,人工智能的进一步发展使得机器学习,特别是基于监督的机器学习无论在学术界还是在工业界都得到了广泛应用。然而,在来自移动互联网和物联网等海量数据涌现的大背景下,使得提供给传统主动学习算法的数据呈现范围更广、数量更大、类型更多和异构性等新特点,由此使得正确标记这些数据所需的知识将远超过专家拥有的广度和复杂度。如果仍利用主动学习算法中的雇佣专家来进行标记,那么机器学习系统得到的也将是可能含有大量噪音标记的数据。因此与传统的主动学习算法所要求专家进行无噪音标记也不再一致。而且通过雇佣专家来进行标记,无论从花费成本还是从可操作性层面看,也不再可行。近期,随着智能手机等移动设备使用的普及,使得利用群智理论来进行上面的海量样本数据标记成为可能。然而,完成这个任务面临消耗用户移动设备的大量资源(如通信和计算能力、能量等)、泄露个人隐私、支付的安全性和可信性等问题,由此导致用户参与意愿低下。因此,迫切需要设计一种机制来消除用户隐私顾虑等自私行为以期激励他们广泛参与进行高质量数据标记,从而尽可能地将人类经验、知识和智力真实地迁移到机器学习系统中。尽管现在已有部分基于激励的数据标记技术被提出,但是这些技术仍然还处于初步发展阶段。鉴于这些初步发展和人工智能应用发展的需要,本文以群智的激励机制为研究基础,结合统计学理论,在监督学习情况下,考虑样本数据具有噪声、冗余性、异构性和隐私性等特点,设计了一系列有效的基于激励机制的数据标记技术并应用到增强现实领域的视觉对象分类任务中。本文的主要的研究工作和贡献如下:(1)考虑到用户在进行数据标记提交时可能会有泄漏个人隐私的风险和发布标记任务平台的支付可信问题,本文首先针对同构和异构任务工作模型场景,设计了基于隐私保护激励的可验证的同构和异构概化的数据标记技术。然后对更复杂的子模任务工作模型场景,本文也设计了基于隐私保护激励的可验证的子模的数据标记技术。(2)为了激励用户广泛参与,考虑到用户的异构性,不同的偏好和自私性等,基于垄断融合的理论推导了边际质量的闭环表达式,并在平均冗余条件下设计了基于边际质量激励的长期数据标记技术来保证用户的高质量进行数据标记。(3)研究周期性规定标记任务约束下的数据标记问题,在具体样本冗余约束条件下,从完成指定标记任务的支付最小化角度,分别设计了基于节俭激励的半在线和在线周期性数据标记技术。(4)研究在标记花费预算约束下多标记问题,考虑到进行多个标记的内在不确定性和多样性,在无冗余约束条件下,我们分别设计了基于标价模型和贴价模型激励的在线多标记数据标记技术,并应用激励和深度学习的整合框架到增强现实领域的视觉对象分类任务中。综上,本文在群智激励研究的基础上,提出了一系列基于激励的数据标记技术,理论分析和大量实验验证了这些技术的有效性,为人工智能领域的分类和识别应用提供了理论和技术支撑。