【摘 要】
:
机器学习中,收集有标签数据来建立模型以及调整其中相关参数的过程是非常花费时间和代价的。当有标签数据的数量较少时,我们希望其中的每一个都尽量具有代表性,这样建立的模型才
论文部分内容阅读
机器学习中,收集有标签数据来建立模型以及调整其中相关参数的过程是非常花费时间和代价的。当有标签数据的数量较少时,我们希望其中的每一个都尽量具有代表性,这样建立的模型才具有适应性。而在数据挖掘实际应用中经常碰到的一种情况却是有标签数据很匮乏而无标签数据很充足。在这种情况下,挑选具有信息量的数据去询问Oracle进行标签可以显著提高模型的准确性。但是这个获得标签的过程是代价很高的,主动学习就是基于此情况的一种解决方案,希望有效地少询问Oracle却可以显著的提高模型准确率。
以往的主动学习通常是基于单一Oracle,或者代价一致的情况,而这往往是一种理想化的假设。在实际问题中,常常会出现一些存在多个Oracle或样本之间的代价不同的情况。例如网页分类问题,大类与小类的分类难度和代价常常是不同的,而基于这类情况的研究并不是很多。
基于多Oracle的不同代价的主动学习就是一个具有现实意义的选择。本文建立了一个框架式的多Oracle模型,该模型可以对比在不同代价情况下的主动学习问题,并在这个过程中结合了一些机器学习方法,例如运用聚类等方法给Oracle加入惩罚因素,用不同方式构造Oracle,同时构造多个分类器并采用投票的方法给出每个样本的信息量。最后,在实验中通过设置不同的代价比例等参数来观察效果。
其他文献
软件复用是目前解决软件危机、提高软件生产效率和质量的比较现实可行的途径之一。作为软件复用的基础设施——构件库,成为近十年来软件复用的研究热点和重点,它的研究正得到
随着医疗数字化进程的加快,医学影像资料数量成爆炸式增长,使其存储空间和获取速度面临很大的挑战。在信号处理领域,人们对于基于信号稀疏表达的研究越来越感兴趣。信号稀疏
僵尸网络(Botnet)是通过入侵网络空间内一个或多个非配合计算终端构建的、可被攻击者远程控制的通用计算平台。其中,非配合指的是未经计算终端刚户明确授权;攻击者指的是掌握僵
对等网(Peer-to-Peer, P2P)以其非中心化、可扩展性、健壮性、负载均衡、容错性好等优点,得到了广泛的应用。eMule协议作为一种典型的P2P应用协议因其在文件共享方面具有其独
随着通信技术的发展,无线能量传输已经成为物联网发展的重要组成部分。尤其是近年来,无线传感网络在环境监测、健康医疗等领域的突出表现使其成为人们生活中不可或缺的一部分
随着业务复杂程度的日益提高,业务建模已经成为软件开发中一个重要的环节,而面向领域的业务建模也成为研究的热点。零码平台是面向特定领域的软件生产平台,提供了过程类业务
Ad Hoc网络是一种无固定基础设施的分布式无线多跳网络,具有组网灵活迅速、节点移动自由、抗毁性强等优点,因而广泛应用于军事和民用领域。但是,由于其网络拓扑动态变换,使得常规
随着社会经济的发展,科技的进步,汽车的使用越来越多,随之而来的汽车盗窃问题日益突出。网络式防盗技术在国外市场中已经广泛使用,而在国内汽车防盗市场中,大部分采用的是电
虚拟组织的应用发展对网络和分布式系统中服务和资源的开放性和多样性提出了更高的要求,现今agent的技术正好能满足虚拟组织发展的需求。agent的自治能力和社会能力能提供灵
社会的大力发展,也促进了科学技术的快速发展,尤其在最近的时间,云计算也同样得到迅速的发展,因此,移动云计算在这样的大数据环境下应运而生。基于计算机技术的前提下,学习模