基于k近邻多标签学习的数据降维算法的研究

来源 :闽南师范大学 | 被引量 : 0次 | 上传用户:dh5601
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着“互联网+”发展,与人们生活息息相关的多标签数据将会大量产生。由于多标签学习过程中需要考虑属性特征与多个标签、标签之间的相关性,从而使得多标签学习在分类和降维方面比单标签学习更为复杂、更具挑战性。自上世纪九十年代末多标签学习的概念提出以来,吸引了众多专家学者的关注。多标签学习的研究成果如雨后春笋,主要集中在分类和降维两个研究方向。数据降维是机器学习中的重要步骤,是提高数据分类性能的重要手段。本文提出了PCAI和MRF-mRMR两种数据降维算法。PCAI算法与原有算法相比,分类效果明显提升;MRF-mRMR算法在去除冗余属性特征的同时还能保持属性特征与标签之间的相关性。本文对多标签学习的研究可以分为两部分。第一部分提出了基于PCA算法的PCAI数据降维算法,并利用ML-kNN分类器对数据分类。首先,提出了信息容忍度的概念,并定义了其计算公式,同时对公式中的参数取值范围做了实验探讨;其次,得到数据降维后的特征值,并将特征值得应用到ML-kNN分类器中对距离的加权上;最后,将降维后的数据集应用到改进后的ML-kNN分类器中验证降维效果。第二部分讲述了Relief算法和mRMR算法,一方面对Relief算法中属性特征权重的计算方式进行改进,另一方面提出了MRF-mRMR组合特征选择算法。提出的MRF-mRMR算法既保持了mRMR算法最大相关和最小冗余的优势,又拥有Relief算法对每个属性特征加权排序的优点。实验结果表明,MRF-mRMR组合算法的降维效果明显优于已有算法。综上所述,本文提出了PCAI和MRF-mMMR两种降维算法,并以ML-kNN为分类器验证降维效果。实验结果表明,数据降维效果明显,且数据分类效果也有所提升。
其他文献
近年来,随着网络规模的飞速增长,网络上的数据流也越来越多。但是,传统的路由算法不能充分利用现有的网络资源,从而造成了网络拥塞,这已成为制约网络发展和应用的瓶颈。因此,
聚类分析中簇确认方法可评估所得簇的“质量”,使所得聚类结果能更好地体现数据集的原始结构。IB方法通过给定源变量X和它的相关变量Y的联合概率分布p(x,y),来寻求X的压缩变
近几年来,随着人们生活水平的普遍提高,家用汽车已经成为众多家庭的主要出行工具。伴随着生活品质的上升,人们的安全意识也普遍提高,在家用汽车的选择上偏向于质量更好,安全
随着数字多媒体技术与计算机网络的迅猛发展,信息安全问题已经成为了当今社会的一个重点研究问题,密写技术应用到了社会及日常生活中的多个领域。密写技术研究的成果在社会及
随着计算机技术的飞速发展,软件系统越来越复杂,从而导致了“软件危机”。解决软件危机的最佳途径之一是复用技术。基于组件的软件开发是当前复用技术研究的热点,其中组件可
XML己成为Web上表示和交换数据的标准格式。随着XML技术的不断发展和完善,涌现出大量XML文档。如何有效管理大规模XML数据,如何对XML数据进行高效的查询,已成为当前数据库技
学位
随着软件规模和复杂性的日益增长,人们对软件的复杂性进行分析和度量的要求越来越高,因此对软件复杂性分析技术的研究已成为软件工程学中的一个热点。迄今为止,国内对软件复杂性
学位
当前,存储系统网络化、对象化的趋势越来越明显,这对网络存储安全技术提出了极大的挑战。网络存储安全涉及网络安全与存储安全两方面,其核心是为了保证数据信息的逻辑安全。
学位
学位
互联网自诞生以来得到了迅猛的发展,Web信息更是呈现出指数形式地增长。传统的单机多线程主题爬虫已经不适合用来完成海量信息的抓取工作。正是在这样的背景下,云计算的出现