【摘 要】
:
多示例学习的主要目的是通过学习训练集中的概念,为一些不可预知的包获取正确的类别标签。目前大量学者对多示例学习的理论及应用进行了研究,并取得了丰富的成果,然而多数研
论文部分内容阅读
多示例学习的主要目的是通过学习训练集中的概念,为一些不可预知的包获取正确的类别标签。目前大量学者对多示例学习的理论及应用进行了研究,并取得了丰富的成果,然而多数研究工作都是在训练集中包的标签已知的情况下进行的。对于包中不含有标签的无监督多示例学习,可用的算法依然很少。而在多数情况下获取训练包的标签是一件很困难的事,或者需要花费很大的代价,并且无监督学习可以有效挖掘数据集的内部结构,所以研究无监督多示例学习算法具有重要的意义。在传统的监督和无监督学习中,每个数据对象都用单一示例进行表示,在多示例学习中,每个对象用一个包含多个示例的包表示。目前集中在多示例预测问题上的大多研究工作中,每个训练集中组成的包都含有一个二进制或者实值的类别标签,可以理解为传统意义上的分类和回归问题。本文为了解决无监督多示例学习的问题,提出了基于聚类与分类结合的多示例预测算法。算法的第一步是通过多示例聚类算法完成无标签训练包的聚类工作,用一些距离度量方法来测量包之间的相似性,采用聚类分析中通用的k-均值算法,将没有标记的训练包划分成k个互不相交的簇。算法的第二步是基于此聚类结果,将每个包重新表示为一个k维的特征向量,定义其第i维的特征值为这个包到第i个聚簇中所有包的平均距离,并将该簇的类别作为标签。在所有包都被转换为对应的特征向量后,就可以使用常用的监督学习算法来学习被转换的特征向量了,本文主要使用了三种不同的分类器算法进行实验。通过在标准多示例模型和广义的多示例模型上进行多次实验,并与其它多种多示例预测算法进行对比,研究证明了本文算法的有效性,并且在不同种类的多示例预测问题上都具有较高的准确度。
其他文献
苹果iPhone的面世促进了市场上触摸屏幕手机的发展,越来越多的厂商加强了触摸屏手机的研发力量。美国高通(Qualcomm)公司提出的CDMA(Code Division Multiple Access)技术,由于
交通状态主要表示为交通流状态,宏观上主要是指城市道路交通的拥堵程度。在城市道路交通控制过程中,交通状态的判定是前提和基础。传统的交通状态判定的研究通常是针对高速路
基于半导体的以Flash为存储介质的存储器是一种高性能、低能耗的新兴存储设备,它的问世将逐渐取代以磁记录方式存储数据的硬盘。但由于Flash存储芯片本身容量的限制和芯片中
随着计算机和网络技术的飞速发展,日益普及的互联网为我们提供了大量的经济利益和生活便利的同时,也带来了大量的信息安全问题,如个人隐私信息、商业与军事机密信息的泄露、
随着网页结构的复杂化与内容的多主题化,搜索引擎的结果越来越无法满足人们的需求,因为网页作为最基本的信息获取单位已不再合适,要更准确的获取web上的信息,就必须对网页进
数据挖掘是指从大量的、不完全地、有噪声的、模糊的、随机的数据中提取人们感兴趣的知识和规则的过程,数据挖掘的研究已经取得了重大的进展,而且被应用到众多的领域。关联规则
随着近年来云服务的普及,用户体验变得极为重要,针对负载均衡和热点等问题,需要依靠虚拟机动态迁移技术来解决问题的同时,保证用户的体验。虚拟机动态迁移流程中,内存由于信
随着因特网(Internet)的普及和IP技术、VoIP技术的发展,VoIP产品在电信市场中占有的份额的不断提高,VoIP技术已经成为计算机业和电信业最热门的话题之一。H.248协议具有简单
随着数据库技术的逐渐成熟和信息数据的膨胀,数据挖掘技术(Data Mining,DM)应运而生,被广泛应用于银行金融、气象预报、DNA、教育、电信、客户分类等领域及国防科研上。数据
在计算机视觉领域,从二维图像重建物体三维轮廓形状是当前的一个研究热点,高质量的3D模型成为现代人们生活的迫切需求,广泛应用于逆向工程。传统的三维数据获取方法,如双目立体视