多标签数据的降维与分类算法研究

被引量 : 0次 | 上传用户:truebyb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网和信息技术的快速发展,互联网中出现了大量的多标签数据,这样的数据每一条样本会同时对应到多个类别上。近些年来如何高效的处理多标签数据,已经成为研究学者们研究的一个热点问题。针对多标签问题已有的研究大部分关注在分类方法的研究上,本文考虑到数据维度较高的情况下学习起来会比较困难,同时可能遇到维度灾难问题,提出了一种针对多标签数据的新的降维方法——Multi-label Kernel Discriminant Analysis, MLKDA来实现维度约减。在多标签学习的分类阶段,本文运用多标签分类中常用的算法适应的方法,将ELM (Extreme Learning Machine)算法改进到多标签分类上,运用这一算法能够实现多标签数据高效的分类。多标签学习的过程中,降维是数据预处理过程中的一个步骤。然而高维空间中的点通常会面临线性不可分的问题,已有的一些多标签降维方法不能解决非线性降维的问题,并且不会整体考虑数据对应的多个标签,这样可能会破坏数据的整体性结构。针对这些问题,本文中MLKDA方法运用核函数进行特征的映射,解决非线性降维问题;同时考虑到多标签数据的标签之间会有一定的关联性,从而利用标签之间的关联整体考虑标签结构。本文的MLKDA降维方法希望能够在达到降维目标的同时,尽量多的保留不同类别之间的判别信息,这样不仅解决了数据维度过高可能引起的维度灾难问题,而且对后续分类过程有一定的帮助。多标签分类是多标签学习的目标。已有的多标签分类方法主要有问题转换和算法适应两种类型。通常分类方法的效率是一个很重要的问题,而多数的问题转换方法会面临效率较低、扩展性能稍差的问题。本文为实现对多标签数据相对快速准确的分类,运用算法适应方法,将ELM改进到多标签分类中,实现了多标签数据快速分类。另外,文中考虑到算法的可扩展性能,将MLKDA与多标签ELM算法的组合,扩展到多标签数据流中进行实验。算法解决了在数据流中对数据分块处理进行降维时可能遇到的小样本问题和数据流中流动的数据需要及时快速进行分类的问题。本文中MLKDA与多标签ELM算法的组合,实现了对多标签高维度数据的较好的学习。在常见的多标签数据集上的实验证明了本文提出的多标签降维方法在大多数情况下优于已有的多标签降维方法;同时实验结果表明,将ELM改进到多标签分类中,也是一种很好的选择。数据流中实验也表明文中的降维分类算法的组合有一定的扩展性。
其他文献
<正>中国移动通信集团上海有限公司(以下简称中国移动上海公司)成立于1999年,前身是上海移动通信公司,2000年公司在美国纽约、香港注资上市,成为中国移动(香港)有限公司下属
随着我国对科研经费的投入不断加大,各高校在科研经费的管理使用中出现的问题越来越多,近年来在我国高校不断发生弄虚作假骗取科研经费等违法犯罪案件,涉案金额趋扩大之势、犯案
目的:观察灭幽汤干预前后幽门螺杆菌相关性胃炎(Helicobacter pylori associated gastritis, HAG)脾胃湿热证BALB/c小鼠模型HSP70、AQP4的表达,探讨其治疗HAG脾胃湿热证可能的
边缘社区居民安全感是指主要是社区成员对社区所提供的服务与保障方面的安全感。安全感受个人主观影响较大,是边缘社区居民心理对自己安全状态的感受与判断。本文旨在找出影响
新闻媒体是现代信息社会和风险社会获取信息的主要途径和重要桥梁,它通过构建“拟态环境”为公众提供认识社会、了解社会的信息环境。虽然在全媒体时代里,以微信、微博为代表的
柴油机以热效率高、适应性好、功率范围宽和使用寿命长等特点,在公路交通、工程机械、农业机械、铁路、船舶等领域得到了广泛的应用。在载重汽车、大型客车领域,都是以柴油作
本文将Z房地产公司作为研究研究对象,在进行前期系统调研分析后,结合工作与学习过程中的管理经验,并借助相关战略管理理论(如PEST分析模型,五力模型理论,SWOT矩阵分析理论等)
电视新闻评论类节目主持人意见领袖作用的实证研究,属于传播学中的传播效果研究领域,本文主要以青少年群体为研究对象,从两个方面对意见领袖和电视评论类节目主持人意见领袖
体育中考,是指初中毕业升学体育考试。它是全面贯彻党的教育方针,坚持树立“健康第一”的指导思想,促进社会、学校、家长对学生体质状况的关心和重视,增强学生体质的重要举措之一
盘锦市作为典型的资源型城市,经济发展曾有过辉煌时期,但经过三十多年的资源开采,资源的衰退和单一的产业结构对经济发展产生了影响,经济连续几年出现了下滑,因此,改变现有的