无监督学习下特征选择方法研究

来源 :西南财经大学 | 被引量 : 0次 | 上传用户:littlev19
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术和社会的进步发展,各个科学领域都产生了大量、多维、结构复杂的数据。分析和研究过程中,存在的大量高维数据和未标注数据使数据分析和研究面临很大的挑战。一方面,数据的高维复杂性和高维度导致分析模型变得更加复杂,同时模型的性能没有得到保证,泛化能力也在不断降低;另一方面,非标记数据的增长速度以及获取的便捷性都远远超过有标注数据。面对这样复杂的数据集,如何去粗存精、删繁就简,快速准确地从中选出包含关键信息的指标特征就显得尤为重要。在缺少指标信息的监督指导下,高维数据的分析及指标特征选择研究更加具有挑战性。本文将从以下几个方面进行无监督学习的特征选择方法研究。1)由于传统的无监督的特征选择模型都是基于数据表示的,这样的模型受原始空间的噪声和冗余特征的影响很大,为了避免这种情况,本文在数据的字典基础空间上进行特征选择方法研究,相比于在原始数据空间的低级表示,该方法能够捕获到更抽象和更高级的数据表示。此外,同时学习相似度图来保留局部几何数据结构,该结构已被证实对于无监督特征选择至关重要。总之,我们提出了一个模型(简称为DGL-UFS)将字典学习、相似度图学习和特征选择集成到一个统一的框架中,经过数据实验测试,已验证该模型的可靠性。2)传统无监督学习下特征选择算法的前提都是以数据同分布且相互独立为假设前提。然而,现实数据不仅与高维特征相关联,而且还固有地彼此相互关联。加上传统相似度图只能描述数据的成对关系,不能捕获更高阶关系,更不能有效利用调查数据中复杂并更加隐含的结构。鉴于此,本文提出了通过自适应超图正则化潜在表示学习进行特征选择的方法(简称AHRLRL)。不同于在原始数据空间中计算特征的重要性,本方法在通过潜在表示空间的学习,获得数据的高级表示,该特征表示空间方法对噪声更鲁棒。同时为了能进一步获得数据的局部流行几何结构,该方法将自适应学习超图嵌入到结果模型中,进而采取更高阶的表达方式进行特征选择来实现降维目的。此外,我们还开发了一种有效的交替算法来进行优化,经过验证,实验结果均有力的验证了这种模型的可行性及算法的有效性。本文根据特征选择方法研究的现状,在分析现有无监督特征选择算法的功能及存在的不足的基础上,进行更加深层次的研究。通过构建字典空间和潜在空间来获取更加隐含、更加高阶的数据的内部结构信息,分别嵌入相似图学习和自适应超图学习来进行特征选择。本文提出的方法,为数据领域的研究内容做补充,提供了新的解决思路。
其他文献
防范化解重大金融风险是中央明确的三大攻坚战重要一环,关乎着经济社会的和谐、稳定,是确保实现供给侧结构性改革,保证经济平稳、高速发展的重要前提,是当前和今后一段时期我国金融工作的重中之重。系统性、区域性金融风险防范在2007年全球金融危机以后被列上更为重要的议事日程。其中,理论界对于系统性金融风险已经积累了不少广泛而深入的研究成果,但在区域性金融风险方面专门的研究还较少,这方面的探索具有十分紧迫的理
由于委托人与代理人之间存在一些信息不对称,为了缓解这些信息不对称引发的道德风险问题,委托人需要设计合理的合约和薪酬制度去激励代理人经营项目。在连续时间委托代理框架下,本文将研究带有隐藏行为、带有单个风险控制和带有多个风险控制的道德风险模型,分别讨论存在道德风险和不存在道德风险情况时,委托人和代理人的最优策略以及薪酬设计,并对所得结果进行相应分析;此外,本文也研究了涉及资产管理问题的连续时间委托代理
工作和家庭作为个体参与的两项最重要的角色领域,其关系历来倍受关注。此前关于二者冲突的研究占据了学术界主流,直至Sieber提出角色累积理论,开辟了工作家庭研究界面的新思路。尤其是Greenhaus和Powell正式提出工作-家庭增益概念并构建起工作-家庭增益双路径模型以来,关于该问题的探索,无论是理论研究还是实证研究层面都取得了不少成效,得出了许多有益的结论。但过往的研究存在一些不一致的结论,对产
2015年2月4日施行的《最高人民法院关于适用﹤中华人民共和国民事诉讼法﹥的解释》(下称《民诉法解释》)提出我国民事诉讼一般情形下之“高度可能性证明标准”,及特殊情形下之“排除合理怀疑标准”,将“排除合理怀疑”概念直接引入我国民事诉讼领域。由于该标准的产生欠缺足够的理论构建与实践累积的过程,因此,对于该标准“是否适用”的质疑就在所难免。加之,该标准适用近五年来始终未有官方权威的、针对性的进一步解释
2005年《公司法》修订首次确立了司法解散制度,成为股东在公司僵局情况下实现权利救济的重要途径。此后《公司法》在2013年修订时保留了司法解散制度,其第一百八十二条规定:“公司经营管理发生严重困难,继续存续会使股东利益受到重大损失,通过其他途径不能解决的,持有公司全部股东表决权百分之十以上的股东,可以请求人民法院解散公司。”司法解散制度作为公司僵局中股东权利的救济途径,其确立首先体现了公司合同不完
近几年,事业单位和大型公司等单位以临时设立的调查小组、工作小组等小组应对突发性举报的现象频发,并成为一种具有代表性、典型性的解决纠纷的反应机制。我们从中抽象出了“小组式纠纷解决机制”这一概念。小组式纠纷解决机制是指,当举报方当事人和被举报方当事人之间存在某种纠纷,举报方当事人未选择向法院诉讼等公力救济和社会救济而是向被举报方当事人所属单位进行举报以及通过新闻媒体、互联网曝光该举报,而该单位成立临时
旅游过程中,游客不可避免会与其他游客发生社会互动,这种非惯常环境下的遇见、交流和陪伴,能让游客暂时摆脱日常生活的压力和束缚,满足他们在日常结构化社会中很难实现的社交需求,对身处异地的游客当下的旅游体验产生重要影响,因此游客间互动为旅游企业提升游客体验提供了除优化旅游产品以外的新方向。以往旅游体验研究大多聚焦旅游世界中游客与旅游吸引物的关系(如游客凝视、感官营销、具身体验等相关成果),以及游客与当地
人民立场是中国共产党的根本政治立场,人民性是中国国家制度和治理体系的本质属性。现阶段,中国社会发展的主要矛盾转化为“人民日益增长的美好生活需要和不平衡不充分的发展之间的矛盾”。党的十九届四中全会强调,“推进国家治理体系和治理能力现代化”、“着力解决好发展不平衡不充分问题”,使区域协调发展成为新时代中国区域发展的统领性战略。面对这一新时代发展背景,需要一种以全体人民为主体进行“协调选择”的新思维和新
互联网的发展使得用户生成内容大量增长,其中就包括文本数据。这些文本数据中包含了大量有价值的信息,尽管人们可以理解文本数据,文本数据的数量超过了人力能够处理的上限,为了充分利用这些信息,人们需要诉诸于能够自动挖掘这些信息的方法。文本挖掘正是这种方法,许多文本挖掘研究被提出,这使得文本挖掘技术得到快速发展。然而,在一些更复杂的场景中,仍然存在现有研究难以解决的问题。本文结合多属性决策方法,从算法和应用
自中国共产党诞生以来,既忠实传承和弘扬中华民族的优秀传统文化,又积极倡导和发展以马克思主义为指导的先进文化。在革命、建设、改革各个历史时期,中国共产党团结领导全国人民以思想文化的觉醒、理论创造的成果、文化建设的成就推进党和人民的伟大事业向前发展。较之任何一段党的历史,延安时期的特殊之处在于,这是兼具救亡图存、民族独立和社会解放的决战时期,也是一个确立党的第一代领导集体、全党达到空前团结与统一的时期