非线性的无监督特征选择方法的研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:hjdrm225411
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科学技术的迅猛发展,我们进入了大数据时代,应用系统产生的数据以爆炸性的速度增长。这些数据除了规模巨大以外,在诸如图像和视频理解、生物信息学、文本挖掘等领域也呈现出维度很高的特点。大量的研究和实践表明,事实上并不是所有的特征都是和学习任务(如分类)相关,也不是所有的特征都可以提高学习器的性能。这些特征是通常稀疏的,并且包含有大量无关和冗余信息。直接利用这些高维数据常常会面临高昂的计算代价、沉重的存储负担、以及由于不相关特征和冗余特征造成的性能下降等问题。因此,如何解决由数据的高维度带来的“维度灾难”和过拟合等问题已经成为研究的重点方向。特征选择已经显示出其解决上述问题的有效性。在现实应用中存在大量的未标记数据,已标记数据却很少,而人工标记数据的代价昂贵,因此如何在无监督的情况下进行特征选择成为了具有迫切需求和重要应用价值的研究方向。虽然很多无监督特征选择算法被提了出来,但它们通常有以下的限制:大多数现有的无监督特征选择方法通常假设选择出来的特征和类结构是线性相关的。然而,在现实世界中,二者之间关系的复杂性远非线性,而探索其复杂的关联往往较为困难但也极具价值。为了解决上述问题,本文引入了希尔伯特施密特独立性准则(HSIC)来度量选择的特征和类结构之间的非线性关系,提出了基于HSIC的单视角和多视角的非线性无监督特征选择方法。具体内容如下:1、度量单视角数据下选择的特征和类结构之间的非线性关系。在单视角下提出了基于HSIC的非线性无监督特征选择方法:首先通过谱聚类来学习数据的类结构–伪类标签,通过?2,1范数保证特征选择矩阵的稀疏性;不同于其他方法,本文利用HSIC来度量选择的特性和类结构之间的非线性关系。2、探索多视角数据选择的特征和类结构之间的非线性关系。在多视角下提出了基于HSIC的非线性无监督特性选择方法:利用多视角数据之间的互补性,通过谱聚类来学习数据的类结构;为了保证多视角数据的一致性,不同于其他多视角特征选择方法在每个视角上学习相同的类结构,我们的方法引入了一致性的类结构,有效的处理了可能存在的噪声和异常值,更加的鲁棒;利用HSIC来度量学习到的特征和一致性的类结构之间的非线性关系。
其他文献
在6月12日开幕的中国国际标签技术展览会上,太阳机械股份有限公司的展台格外引人瞩目。此次太阳机械带来了STF-340-12F柔版轮转印刷机,每到开机演示时段展位上便吸引了诸多专业观众的驻足。这是STF-340-12F柔版轮转印刷机研发成功后在国内展会的第三次亮相。经过2年间不断地调整升级,STF的最大纸宽可扩展到370毫米,印刷重复周长从5.5英寸一直延伸到26英寸。最大限度满足客户对标签尺寸的需
“在市场经济中,摸爬滚打的投资者通常都会有这样一个共鸣:市场在哪里,就去哪里办厂。”
目的:从1994年起,世界卫生组织提出废弃"更年期"而推荐采用"围绝经期"一词。围绝经期是逐渐成为近几年妇科研讨热门话题,本研究目的在于探讨围绝经期异常子宫出血与子宫内膜病变的相关因素;方法:回顾性分析在新疆医科大学第一附属医院就诊的围绝经期异常子宫出血的女性患者333例的临床特点及所有的病史资料,运用统计学方法分析在异常子宫出血患者中内膜病变的相关因素分布情况;结果:发现在333例患者中子宫内膜
霍乱是一种古老且流行广泛的急性肠道感染烈性传染病,其病原体是霍乱弧菌(Vibrio cholerae).霍乱的临床特征是分泌性腹泻,粪便为米泔样,并伴有呕吐。导致病人迅速脱水和体液
江苏凤凰盐城印刷有限公司(简称"江苏凤凰")是江苏凤凰出版传媒集团控股的省属综合性印刷企业,是江苏省重要的教材印制基地,同时还兼营当地和周边的很多包装业务。近几年,江苏凤
自“分享经济”的概念从国外传播到中国并得到提倡以来,知识付费成为了顺应分享经济的大趋势,而新媒体时代又赋予了知识付费以新的可能。随着移动终端的普及度越来越高,满足人们碎片化阅读习惯的知识付费平台纷纷上线,通过语音问答、付费订阅等方式,用户能够完成对信息的快速精准掌握。相较于互联网传统的免费分享观念,知识付费给予了用户更具针对性的内容供应。面对层出不穷的知识付费平台,新浪微博作为我国影响力最大的社交