面向高维数据的共享子空间识别方法研究

来源 :北京交通大学 | 被引量 : 1次 | 上传用户:badboyker
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息化和互联网的发展,高维数据在人们生活的各个领域不断涌现,如天文望远镜所收集到的数据,Web文档,多媒体数据以及生物医学领域中的基因数据等等。总的来说,这些数据都处于维数较高的特征空间中,特征维数的高维性带来的直接后果就是维度灾难(curse of dimensionality)。那么如何从这些高维的数据中挖掘出对人类有价值的信息就变得更为困难,并且已经成为迫切需要解决的问题。高维数据挖掘的一个重要的方法是通过对构建数据的特征属性之间的共享空间进行研究,基于这种共享子空间将原始的数据降到一个低维的、具有清晰的潜在的结构上去。于是,基于共享子空间的多标签学习和利用特征属性之间的共享信息的聚类分析得到了越来越多学者的关注。在多标签分类问题中,多个标签共享同一个输入空间,而且同一个实例的不同标签之间也存在一定的相关性。所以在研究此类问题的时候,标签之间的关联性研究就显得尤为重要。现有的多标签学习对于标签之间的相关性研究均是在原始数据上进行的,然而原始数据存在高维、信息冗余等特点,致使已有学习方法无法达到预期的效果。本文提出一种基于共享子空间的多标签数据表示模型,该模型在类标信息指导的基础上,从原始特征空间中提炼出高层信息,并有效的体现多标签之间的相关性。基于高层特征信息,原始高维数据被有效的映射到一个低维空间中。实验证明该模型有效的提高了多标签数据的分类性能。随后,我们将对共享子空间的研究拓展到聚类分析中,利用特征属性之间的共享信息提高特征选择的可靠性,从而提升最终的聚类效果。通过对已有特征选择模型的分析,并将该模型应用到聚类分析中,验证了算法的有效性,也证明了在聚类问题中共享子空间的研究同样重要。
其他文献
虚拟人图像分割与三维重建是目前的一个研究热点问题,是一个多学科交叉的研究领域,是计算机图形学和图像处理在生物医学工程中的重要应用。它涉及数字图像处理、计算机图形学
现代化的化工产业生产出数目众多的化学品,在这些化学品中不乏有毒、易燃易爆的危险化学品。一旦发生意外泄漏,压力容器中高密度的危险物质会迅速进入到环境中,形成危险气云。如
随着计算机、网络、通信等技术的发展,基于Web的远程控制技术成为研究和开发的新方向。将该技术与图像处理相结合可实现交互图像处理,这样不仅能节省大量的资源,而且使实验者
随着汽车的逐渐普及,车载导航的使用也越来越多,全球定位系统(Global Position System, GPS)以其全天候、全球性以及实时性的导航优势在人们日常导航中起到了不可替代的作用,
资源空间模型是一个通过对资源内容进行分类的规范、存储、管理和定位网络资源的语义数据模型,它通过在维上设置约束来实现规范化,从而提高资源管理的正确性。要保证资源空间
计算机多媒体技术和嵌入式技术的高速发展,各种集计算机、通信、消费电子产品等特征于一体的电子产品得以广泛应用,嵌入式媒体播放器已经成为此类产品中主要的应用软件。同时
随着企业内部计算资源的日益增多,如何有效地管理这些分布的计算资源,为企业降低管理成本,成为提升企业自身竞争力的一个至关重要的因素。当前大多数的资源管理模型均是根据
当前,Web技术在Internet上得到了广泛的应用,它支持实时的信息发布、动态的用户交互以及与后台系统灵活安全的连接。因此如何构造功能更加强大、应用更为灵活、开发更为简单
全球Internet业务一直在飞速的增长,从而引起了IP数据业务对更高带宽的需求快速增加。近几年来,密集波分复用(DWDM)技术的进步使得一根光纤上能够承载上百个波长信道,传输带
排课问题是涉及班级、教师、教室等因素的决策优化问题,也是组合规划中的典型问题。在自动排课系统中,处理排课问题所用的算法处于核心地位,由于排课问题本身的复杂性,寻找这