基于流形学习的数据约简方法研究与应用

被引量 : 0次 | 上传用户：liongliong583

【摘要】

：

随着信息化技术的不断发展，在大量的科学研究中，有时会遇到具有高维特性的数据集，数据的高维特性为获取数据内在规律和结构带来了很大的困难。因此，需要采用适当的数据约简方法对

【作者】

：

闫志敏

【发表日期】

：

2012年期

【关键词】

：

流形学习数据约简 AIC信息准则文本聚类熵值

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着信息化技术的不断发展，在大量的科学研究中，有时会遇到具有高维特性的数据集，数据的高维特性为获取数据内在规律和结构带来了很大的困难。因此，需要采用适当的数据约简方法对这些数据集进行约简处理。数据约简也被称为维数约简或数据降维，现有的降维方法对于不同的数据集具有不同的处理效果。从数据所呈现的结构出发，基于流形学习的数据约简方法可以分为两大类：线性方法和非线性方法。线性降维方法可以对具有线性结构的数据集或者高斯数据集进行有效的处理，非线性降维方法可以对嵌入在高维空间中的数据进行投影，将其映射到低维空间坐标中，从而可以进一步探索数据的内在几何结构。流形学习将样本集内的数据几何信息通过运用数据分析技术呈现出来，即将高维复杂的数据用简洁的低维结构来表示。流形学习的主要目的是寻求嵌入在高维空间中数据的内在分布规律，目前已成为机器学习等相关领域的研究热点。本文通过对基于流形学习的数据约简方法进行一定程度的研究，分别从邻域参数的选择、新增数据点的处理方面对流形学习方法进行了研究和详细的阐述，将改进后的方法有效的应用在文本聚类中，并通过实验验证了方法的有效性和可行性。主要工作总结如下：1.提出了一种判别邻域参数选择合适性的方法。方法采用核主成分分析方法对数据误差进行重构，然后对重构后的数据误差进行聚类，根据聚类的个数判断邻域选择的合适性。之所以采用核主成分分析方法是因为它属于非线性方法，是在主成分分析的基础上产生的，它采用核函数来代替数据向量内积，同时具有主成分分析方法的特性。利用非线性函数把原始数据映射到高维特征空间中进行处理，需要进行内积计算，通过计算原始数据的核函数来代替内积计算，那么相应的计算量就会大大减小。在对误差进行聚类效果的评价方面，采用AIC信息准则对聚类个数进行判断。当数据误差被聚为一类时，则说明所选的邻域参数没有引起误差结构的变化，此时邻域值是合适的；当数据误差的聚类的个数多于一类时，则说明所选的邻域参数导致误差结构发生了严重的变化，此时邻域值是不合适的。2.探讨了一种新的降维方法。从目前的研究来看，局部切空间排列方法使用比较少，经过分析可知，之所以研究较少是因为该方法在某些情况下存在一些缺陷。比如，在处理样本较大的数据集的时候会出现数据内在结构扭曲或者不完整现象，由此可知局部切空间排列方法对于新增数据样本点的处理并不是很理想。优化的线性判别方法是一种线性降维方法，是将原始线性判别方法中的Fisher准则进行优化，使方法执行起来更加方便。文中将优化的线性判别方法与局部切空间排列方法相结合，利用经过优化的Fisher准则对类内和类间投影矩阵进行求解变形，最后得到数据的最优投影矩阵。通过两种方法的结合，可以有效的对新增数据点进行处理。3.探讨了基于流形学习的降维方法在文本聚类中的应用。一般情况下，对文本信息的获得是通过将文本中出现的词条信息频率构造成相应的矩阵，这些矩阵呈现高维特性。若想进一步探究文本数据的内在规律，就需要运用适当的降维方法，近年来数据约简技术已经逐步被应用在文本聚类中。文中运用基于优化线性判别的局部切空间排列方法对高维文本数据信息进行降维处理，将低维空间中的局部坐标对齐，进而表示出全局坐标，获取数据的局部邻域和局部切空间向量坐标，通过使局部误差最小化来对齐局部和全局切空间向量坐标。为了得到良好的可视化效果，用k均值方法对处理后的数据进行聚类分析，同时使用熵值对聚类质量进行评价。

其他文献

老年人慢性咳嗽的病因诊断与治疗分析

目的分析老年人慢性咳嗽的病因分布、诊断和治疗的疗效。方法采用我国于2005年制定的慢性咳嗽病因诊断程序，对146例老年慢性咳嗽患者的病因进行分析，并针对其病因给予特异性治

期刊

慢性咳嗽病因诊断治疗

基于车辆变形求解碰撞前速度的仿真分析

近年来，随着我国汽车保有量的不断增加和道路交通状况的趋于复杂化，汽车安全事故发生频率居高不下，作为引起财产损失和人员伤亡的主要原因，引起越来越多的关注。由于交通事故的多

学位

车辆变形量能量网格图有限元理论碰撞前车速

中国体育法规发展研究

通过文献资料法等对我国1949年以来国家、省、自治区、直辖市的体育法律法规、部门规章和规范性文件进行研究，对中国体育法律法规发展历程从时间及内容上进行分析。结论：我国19

期刊

体育管理体育法律法规中国

基于物联网技术的智能物流监管系统设计与实现

药品危险品物流的监管非常重要，智能物流监管系统的研究具有一定的实际意义。本文运用物联网技术，基于网络控制理论提出了有限带宽下动态资源分配算法，并且构建了基于物联网的智

期刊

物联网网络控制智能物流监管系统

某特种装备前滑板的抗撞击设计

为改善某特种装备前滑板的抗撞击性能,本文采用了有限元软件ABAQUS作为非线性动力学仿真分析的工具,以撞击速度为变量,调用显式分析模块ABAQUS/Explieit,分别模拟计算了由铝

期刊

抗撞击性能动力学仿真运动速度ABAQUS

水产企业财务管理存在的问题及对策

农业企业常面临较多的管理问题，而其中的水产企业更是因行业特点而拥有独特的财务管理问题。因此，如何应对这些问题就显得尤为重要。本文分析当下市场经济条件下水产企业具体的

期刊

水产企业财务管理管理对策

吉林省白山市硅藻土资源可持续开发评价与对策研究

自1982年联合国世界环境与发展委员会提出“可持续发展”这一概念之后，世界各国均结合可持续发展及各国经济、自然、社会发展情况提出了适应于各国现状的可持续发展策略。中国

学位

硅藻土资源可持续开发优化

当代高知“剩女”择偶问题研究

随着中国经济和社会结构的巨大转变,社会转型造成的思想和行为转变日益明显,女性地位不断提升,这就形成了社会中高知女性不断比例激增,而社会转型所遗留的很多问题依然影响着

学位

高知“剩女”择偶问题表现影响因素解决策略

FDI进入对我国汽车产业集群的影响研究

汽车产业的产业链广、带动性强,已成为我国国民经济中的支柱性产业。随着我国汽车产业的不断发展,集聚趋势不断加强,目前已经形成六大汽车产业集群：东北汽车产业集群、长三角

学位

FDI汽车产业产业集群影响

干线公路重载交通沥青路面结构的强度及耐久性研究

随着国民经济的持续增长,我国的公路事业获得了快速发展,但由于交通量的急剧增加和超载车辆超常增多造成了大量沥青路面的早期损坏,这种破坏现象对于干线公路尤为严重。因此,

学位

干线公路重载交通沥青路面强度耐久性

基于流形学习的数据约简方法研究与应用

与本文相关的学术论文