基于标准特征属性和互邻居的多标签分类算法研究

来源 :浙江师范大学 | 被引量 : 0次 | 上传用户:mydearsun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet、信息检索等新技术的不断出现及快速发展,各种应用所积累的数据量急剧增长。这些数据背后通常隐藏了反映事物变化规律的信息或知识。为了能够有效利用这些数据,需要从中挖掘有用的信息和知识,并应用于商务管理、生产控制、市场分析、工程设计和科学探索等领域。这种需求的剧增,推动数据挖掘研究的蓬勃发展。   分类作为一种数据分析方法,是数据挖掘中研究最活跃的课题之一。它可以用于提取描述重要数据类或预测未来的数据趋势的模型。根据样本拥有标签的数量,分类问题主要分为单标签分类问题和多标签分类问题。在实际应用中遇到的分类大多是较为复杂的多标签分类问题,鉴于多标签分类问题本身的理论意义和广泛的应用价值,使其得到了越来越多研究者广泛的关注和重视。   随着相关研究的不断深入,多标签分类的重要程度及其应用价值已逐步显现出来。目前,人们通过与各种学习技术相结合,提出不同类型的多标签分类算法,解决各种不同实际问题。尽管如此,类别标签与属性之间的相互依赖关系及其对多标签分类性能的贡献、影响多标签分类算法效率的因素等的认识仍然不够深入,例如大多数多标签分类算法在处理多标签数据时,没有充分考虑不同的属性集对于各个类标签的贡献度是不同的;虽然k近邻在多标签分类中颇受欢迎,但其本身仍有几个问题有待进一步解决,如容易受噪声数据的干扰,且最优k值难以确定等。这些问题的有效解决,不仅对数据分类技术的理论研究,而且还对多标签分类的实际应用都具有重要的研究意义和实际参考价值。   本文研究多标签分类,主要研究内容及贡献包括:   针对类别标签与属性之间的相互依赖关系及其对多标签分类性能的贡献,提出了一种基于标签特征属性的多标签分类算法。在该算法中,首先在每个类标签的正、负样本集中计算每个属性的属性密度,然后分别从中选取mk个密度值最大的属性,取其交集的属性集作为相应类标签的标签特征属性,最后在标签特征属性的基础上进行多标签分类。   基于k近邻的思想,提出了一种基于k互邻居的多标签分类算法。该算法采用互邻居概念,探讨邻居的重要性程度,区分真假邻居,在此基础上获取待分类数据样本的真实、可靠邻居信息,剔除虚假邻居信息,最后基于这些可靠邻居信息进行预测未标签样本的标签集。同时,通过计算每个样本的互邻居来鉴别并剔除原始数据集中的噪声数据,从而有效提高了数据的质量,更利于从中训练出强健的分类器。   在算法的仿真实验部分,在多个测试数据集上进行仿真实验,并与经典的多标签分类算法进行比较,以验证所提出算法的有效性。基于属性的多标签分类算法的实验结果表明:本算法不仅在分类性能方面明显优于现有的多标签分类算法,还可以确定哪些属性能真实反映各类标签的特性。基于k互邻居的多标签分类算法的实验结果表明:本算法不仅在分类性能方面优于传统的多标签分类算法,而且可以利用互邻居概念从原始数据集中有效识别噪声数据,从而增加预测标签集的可信度。
其他文献
随着互联网技术的发展,Web技术使GIS功能得到扩展,具有广泛的应用前景,WebGIS技术也随之产生。与普通网站相比较,WebGIS的研发技术难度大、开发周期长、花费高且重复利用率低
曲面重构属于逆向工程技术,首先采集数据,对数据去除误差、噪声,修补空洞,然后根据获得的点云数据对曲面进行重构,而隐式曲面重构是曲面重构中的一种。由于隐式曲面容易判断点的内
随着信息技术的发展,市场和用户的需求日益增多,Web应用的结构和功能变得愈加复杂,对于一些特殊的测试需求,传统的手工测试受到极大的挑战,而自动化技术可以更加快速、可靠地
随着企业大中型规模应用的激增、网络规模的扩大,各种应用系统的可靠性不再局限于程序本身的稳定性,而更多的依赖于架构这些应用的Web服务器、应用服务器、数据库以及操作系
粗糙集理论、模糊集理论是信息系统中处理知识不确定和不完全的两种重要方法,是数据挖掘的重要工具。经典粗糙集理论是在1982年由波兰科学家Pawlak教授提出的,通过论域上对象
点集覆盖问题是计算几何领域的一类基本问题,其中包括了直线覆盖、路径覆盖、回路覆盖等问题。此类问题的研究不仅具有重大的理论意义,而且在电路设计、重型器械移动、路径规
入侵检测是一种主动的安全防护技术,它能检测出正常和异常网络行为,分辨异常行为的非法攻击类型,是防火墙等被动防御技术的重要补充,是网络安全保障的重要手段。本文分析了多
视觉检测技术发展至今,视觉检测技术的理论和实现环境仍处在不断发展和完善之中。目前视觉检测的商业应用系统大多数是基于PC机的板卡式系统。这种实现借助高速图像采集卡采
目前,社会网络领域存在着大量的与个体或集体息息相关的信息,如:客户购物网络、朋友网络、电话网络和学术合作网络,以及各种群体网络都含有不少的隐私信息。随着计算机技术、
无线传感器网络节点生成大量冗余数据,这些数据在节点间的转发会引发一系列问题,如节点上有限能量的大量浪费、网络传输延迟、网络中海量传感数据存储处理困难等。这些问题都