面向小样本数据的特征分析技术研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:shijiancuowu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
小样本数据分析是数据挖掘领域的重点和难点,小样本数据通常存在样本容量较小、数据缺失、数据不平衡的问题。数据的缺失不仅会导致样本信息的丢失,难以保证样本质量,后续还会使得很多统计学习和机器学习方法无法应用于数据集。数据质量的好坏决定了统计分析的结果,如果不能对缺失数据进行适当的处理,那么最终的分析结果也很难具有代表性。另一方面,直接对不平衡数据进行训练分类时,由于样本类别比例差异过大,不仅无法使用传统的性能指标来评估分类效果,而且会导致分类器的性能大幅下降,难以构造具有较好性能的分类器。本文针对以上数据缺失和不平衡数据问题展开了深入研究,在MissForest填补算法的基础上进行改进,提高了数据填补的准确率和速度。采用数据重采样与集成学习分类相结合的方法对不平衡数据进行处理,提高了数据的分类准确率。本文首先论述了数据缺失和不平衡数据的相关基础理论,分析了产生相关问题的原因。针对数据缺失问题,介绍了两大类常用的填补方法,分别是基于统计学习和基于机器学习的方法,并重点对机器学习相关方法进行了对比研究。通过分析数据内部属性的相互关系,在传统的机器学习填补算法上进行改进,提出了基于相关性的改进MissForest填补算法。该算法针对不同缺失率下的特定地区受关注人员信息数据集,相比于传统算法具有更好的填补效果。在不平衡数据处理方面,本文主要从数据层面进行研究,比较分析了多种数据重采样方法。针对小样本数据的特点,选择混合采样方法SMOTE Tomek进行数据预处理,优化了数据集中各类样本比例。在后续数据分类阶段,主要使用了集成学习算法,结合多个基学习器的训练结果,优化不平衡数据的分类结果,并与其它算法进行对比实验,最终选取的LightGBM算法针对特定地区受关注人员信息数据集具有较好的分类效果。最后,根据项目需求,本文整合了缺失数据填补和数据分类模块,开发了小样本数据处理软件系统,并对系统的功能进行演示。对填补性能和分类性能进行了系统的测试,其结果满足预期目标,验证了本文所使用的相关算法对小样本数据特征分析的有效性和适用性。
其他文献
基于陶行知的生活教育视角,设计与实施野趣课程。而野趣课程内容选择立足于大自然和社会生活,有效利用园所周边独有的、丰富的自然和生活资源,将其开发为课程实施的场地和素材。同时,把资源引入园内开展多样化的自主性游戏探索。野趣课程以乡土特色为载体,以趣为特色,根据幼儿发展需求,开展形式多样、内容丰富的活动。
中国古典诗歌具有语言精练、思想深刻、意象丰富、感情强烈以及节奏和韵律鲜明的特征。由于中国古典诗歌内容广泛,本文作者把研究对象定为唐诗及其英译文。唐代是我国古典诗歌发展的全盛时期。唐诗作为我国优秀的文学遗产之一,受到全世界人民的喜爱。十九世纪晚期英国著名汉学家翟理斯是对唐诗进行英译的先驱。一百多年来,唐诗的英译文对中外文化的交流做出了杰出的贡献。中国是中国古典诗歌英译研究的集中地之一,其中翻译家许渊
学位
从马林诺夫斯基提出“情景语境”和“文化语境”以来,语境成为语言研究中一个不可回避的问题,但在对待语境的态度和认识上出现分歧:以乔姆斯基为代表的形式主义语言学主张把语境排除在语言研究之外,而以韩礼德为代表的功能主义主张从语境中研究语言;在语境支持者内部也有所谓的静态语境和动态语境之争。我们认为,这些分歧源于对语言使用与语境之间关系问题的不同认识。本文以系统功能语言学的系统理论、功能理论和语境思想为理
学位
过共晶铝硅合金因其优异的耐磨损性能、高弹性模量、低热膨胀和优异的耐高温性能被广泛应用于各类高温耐磨件。但是,由于其合金组织中存在粗大的初生硅相,严重割裂基体组织,损害合金力学性能,大大限制了过共晶铝硅合金的应用范围。因此,探究如何细化过共晶铝硅合金的初生硅相和基体组织、提高合金的强韧性对其进一步推广应用具有重要的价值。本课题以A390过共晶铝硅合金为研究对象,利用光
互动式教学是一种新型的教学模式,提倡师生的共同参与。教师在课堂中,不断探讨师生互动新模式,取得了很大的改善,但依然存在着诸多问题,比如对互动理论理解不清晰、师生配合不默契、教师过渡语言的生硬、指导语言的不清晰等等。其中,课堂教学中的过渡语是课堂互动的一个重要组成部分。自然生成的过渡语既能巧妙的帮助学生理解活动,又能激发学生参与互动的激情。因此,在课堂互动中,教师应自
日本对亚细亚的认识可追溯至利玛窦《坤舆万国全图》在江户时期的流布。但在日语语境中,将亚细亚的(アジア的)作为形容词来描述一种社会形态,则与马克思主义史学在日本的早期传播密切相关。马克思在《政治经济学批判》序言中使用亚细亚的(asiatisch)一词来形容原始共同体的生产方式。在1930年左右的日本言论界,这一词汇在亚洲社会性质论争中逐渐拥有前近代的落后停滞的等词义。
健康是人类最普遍根本的需求,党的十九大报告提出以保障食品安全和积极应对人口老龄化问题为重点的“健康中国战略”,旨在为人民群众提供全方位的健康服务。物联网技术的发展推动全方位健康监测系统的构建,并对底层传感器件提出广泛需求。柔性传感器件,以其成本低廉、性能优异、适用性广等优点,在全面个人健康监测中具有重要价值。因此,本论文主要研究了两类柔性传感器件,一类是面向个体生命
随着全球经济的发展,广告已成为世界各国经济与文化沟通交流的媒介。奈达功能对等翻译理论对跨文化交际中的商业广告翻译有重要指导意义。奈达功能对等翻译理论主张功能对等,不追求文字表面的一一对应,而是要传达给目的语读者与源语读者同样的意境和效果。在翻译工作中,要充分了解广告的特点,在遵循翻译忠实性、简洁性原则的基础上,充分掌握并灵活运用直译、套译、意译、再创型翻译等方法,与
本书从课程设计的原点出发,揭示课程结构、课程意义、课程研究的基础性作用,进而梳理、划分不同的课程设计理论取向与相应的课程设计模式、课程发展路径,以及课程评价的不同类型、模式和价值取向,最终指向课程的未来发展。
梦想成为一名旅行家、冒险家的赵小野最近观看了不少纪录片,其中有讲玄奘的《玄奘之路》《重走唐僧西行路》。赵小野这才把自己看过的四大名著之一《西游记》里的人物唐僧和历史中的原型玄奘联系在一起。让我们和赵小野一起,看看这位高僧到底能不能被称为古代冒险家吧!
期刊