【摘 要】
:
由于科技的快速发展和信息技术的广泛应用,产生了海量的高维数据.为了能从这些数据中获得有用的信息,研究学者提出了很多的降维方法.特征选择方法作为降维方法的一种,可以消除冗余特征,保留数据的关键特征,从而能够对高维数据进行有效处理.本文基于整数规划对无监督特征选择方法进行研究,以期望为带有矩阵l2,0范数的优化模型,特别是与特征选择相关的模型求解提供一种思路.具体工作如下:首先利用数据特征之间的重构最
论文部分内容阅读
由于科技的快速发展和信息技术的广泛应用,产生了海量的高维数据.为了能从这些数据中获得有用的信息,研究学者提出了很多的降维方法.特征选择方法作为降维方法的一种,可以消除冗余特征,保留数据的关键特征,从而能够对高维数据进行有效处理.本文基于整数规划对无监督特征选择方法进行研究,以期望为带有矩阵l2,0范数的优化模型,特别是与特征选择相关的模型求解提供一种思路.具体工作如下:首先利用数据特征之间的重构最小误差建立损失函数,构造以投影矩阵的l2,0范数作为稀疏约束项的优化模型,并且采用吴宝元等人提出的l p-box方法对优化模型进行等价转化,提出一种基于稀疏自表示的无监督特征选择方法(lpbox SEFS).虽然该方法取得了较好的效果,但是数据特征之间也存在着关联性较弱或者不具有关联性的可能,以及数据的样本之间也往往包含一定的相关性.基于此,为了能够保留数据的几何结构信息,提取更准确、更有效的特征信息,我们在第一种模型的基础上联合稀疏图结构提出了另外一种基于稀疏自表示和图结构的无监督特征选择方法(lpbox SEFS Graph,lpbox SEFSG).对于以上的两种模型,在求解过程中,由于优化问题涉及离散稀疏的矩阵l2,0范数约束条件,无法直接求得全局最优解.我们首先将矩阵的l2,0范数约束等价转化为0-1整数规划约束的形式,然后,基于l p-box模型将0-1整数约束转换为两个连续的约束.最后,对具有新约束条件的两个优化问题,本文都采用交替方向乘子法进行迭代求解直至收敛.在5个公开的数据集上与多种现有的典型的无监督特征选择学习算法进行对比,聚类和分类的实验结果说明了我们所提出的两种算法效果都比较显著,能够在指定特征数目时选择出判别能力更强的特征.
其他文献
进入移动互联网时代,国家与国家之间的交流更加密切,受众接触各个国家甚至各个城市的信息越来越容易。对此,良好的国家形象在对外交流的过程中也越发重要。国家形象的对外宣传离不开城市形象的用心塑造。外国人可以通过城市形象来理解国家形象。由于国家之间的文化背景不同,使得城市形象的自我认知与“他者”塑造之间也存在不同。重庆市作为中国四大直辖市之一,研究其“他者”视域下的城市形象,对城市形象塑造与对外传播有重要
对外汉语教学中关于“语”“文”教学研究向来已久,也就是汉语教学中语音与汉字、口语与书面语之间的先后顺序、协调抗衡的问题,对此,不同专家学者持有不同看法和意见,至今尚无定论。对外汉字教学在走上坡路的同时,仍面临方方面面的挑战,是对外汉语教学中的研究重点与难点。本文结合韩国CPIK项目在韩实施情况,调查总结韩国汉语教学中有关“语”“文”教学的问题、探讨分析其原因,并结合笔者在韩教学经验给出适当建议。首
实时系统在国防、金融、电信、航空等重要应用领域中发挥了至关重要的作用,近年来实时系统大量用于我们的日常与工业生产。实时系统不仅要保证逻辑正确性,还要保证时间正确性
"多规合一"实质是政府简政放权改革。本文分析了厦门利用多规合一推进建设项目审批制度改革面临的困境,提出深化建设项目审批制度改革的必要性与可行性,充分借鉴新加坡的先进
信号调制方式的自动识别是检测到信号之后,进行信号解调之前的一个重要步骤,在民用和军用通信领域均发挥着举足轻重的作用。结合国内外文献资料,类间信号调制分类已经取得了不错的效果,但高阶信号的类内分类还存在一系列问题。传统的对高阶信号进行类内分类的方法主要是采取高阶累积量的方法,因为高阶累积量可以非常有效地抑制高斯噪声的影响。然而,传统的高阶累积量方法存在以下几个问题:1)算法计算复杂度高。随着信号调制
二语习得对母语会产生语言迁移,日语对汉语的负迁移有很大一部分也来源于日语汉字词汇。在本篇论文日汉同传的一场模拟会议中,笔者发现日语汉字词汇出现频次高,且笔者出现偏误的场合往往是面对日语汉字词汇的场景,进一步分析后发现也有不少日语汉字词汇也对译语输出产生了正面影响。本文以安倍首相施政方针演讲模拟会议为例,对日汉同传中日语汉字词汇对译语的影响进行了分析。论文分析了案例中日语汉字词汇的类别,共计23例,
近年来,交通、水电等领域的隧道建设迅猛发展。由于地质条件极其复杂,在施工过程中突水塌方等灾害频繁发生,造成了巨大的经济损失,严重威胁着人民的生命财产安全,亟待破解隧道等地下工程的安全监测技术瓶颈。微震监测技术能够利用隧道内岩石破裂过程中产生的微震信号推测岩体的稳定性,对保证施工安全具有十分重大的意义。微震源定位是微震监测技术的核心,开展微震源精确定位技术研究具有重要的安全意义和经济意义。本文以实现
事务作为一种编程抽象,简化了关系型数据的处理。随着数据规模的增加和并发级别的高,诸如Web服务,证券交易和电子商务等众多场景越来越需要低延迟和高吞吐量的事务处理系统的
为探究不同叶色杉木叶片的光合作用能力差异,本研究选取了80株11年生杉木单株作为试验材料,分别测定各个单株的叶色值、光合色素含量、叶绿素荧光参数和光合作用参数。结果显
受显卡硬件资源的限制以及图形处理程序对GPU计算资源的高要求,计算机的GPU难以满足多个虚拟机的要求。特别是在不同的虚拟机所需要不同的GPU计算资源时,目前的GPU虚拟化技术