基于特征选择的集成分类方法及其应用研究

来源 :江苏科技大学 | 被引量 : 2次 | 上传用户:Hai123321
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术飞速发展及广泛应用,数据收集手段日渐完善,医学,经济学,生物信息学等领域与计算机领域的相互渗透,真实世界涉及的数据规模持续膨胀。当前利用计算机技术处理数据的过程中,可能出现的困难诸如:数据量远超计算设备的内存容量,数据样本的特征众多而缺乏合理的语义解释,数据空间分布呈稀疏性、无规律性等。用诸如回归分析、贝叶斯决策等单一的传统统计分析的方法分析处理高维数据愈发困难。如何从大量复杂的数据中挖掘出有效信息,进而合理设计机器学习方案是极具现实意义的难题。为了更好地学习复杂、稀疏的高维数据,机器学习任务可以从两个方面着手:一是降低高维度数据的特征维度,常用手段有基于特征选择的方法和基于特征映射的方法;二是融合多种学习器以便从不同视角分析数据,即集成学习方法。本文的主要工作是探索融合特征选择与集成学习方法以应对复杂数据的分类问题的方法,具体从特征选择与集成学习融合的两种思路展开研究:其一是利用随机化的特征选择(随机约简)得到多个有差异的特征子集、分类器对,进而对其集成。鉴于一些确定性的分类模型(如朴素贝叶斯模型,最近邻分类模型等)无法由相同的数据训练产生不同的训练结果,即无法满足个体分类器的差异性要求。在随机化的多次特征选择后可以在原始数据的基础上得到多组有差异的数据,从而与确定性分类模型结合可以构成满足集成学习差异性要求的个体分类器。换言之,随机化特征选择提供了一种利用确定性分类器进行集成分类的可行方案。在此基础上,本文提出了一种基于邻域决策随机化约简的邻域分类器集成策略,首先在启发式求解约简的过程中,通过放宽属性选择的条件,从而在一定范围内利用随机选择的方法获取多个能够降低邻域决策错误率的属性子集,然后借助这些属性子集在对应邻域分类器上得到的结果进行投票集成,得到最终的分类类别。在12个UCI数据集上的实验结果表明,所提出的基于属性约简的集成邻域分类策略不仅能够有效地提升邻域分类器的分类精度,而且亦能增强邻域分类结果的鲁棒性。这一研究为从集成的视角研究粗糙集理论提供了技术支持。其二是利用特征选择提高集成分类模型中个体分类器的分类准确度从而使集成分类结果的准确度提高。由于数据的原始特征中可能存在使分类能力变差的冗余特征,通过特征选择的方式排除冗余特征可以在特定分类器上获得比用原始特征集合更好的分类性能。在此基础上,本文提出了一种错误率最小化的极限学习机集成策略。在经典的极限学习机投集成分类模型中,对每个个体分类器利用Wrapper方法进行特征选择,分别用降低泛化误差和降低经验误差作为特征选择的依据,得到使对应极限学习机误差降低的特征子集,并与原有个体分类器组合成新的个体分类器。在6个UCI数据集上的实验结果表明,所提出的错误率最小化的极限学习机集成策略较之原始的极限学习机投票集成模型,同等参数下分类能力略有提升。此外,本文基于上述提出的极限学习机集成分类策略,在蛋白质二级结构预测的具体问题上展开应用,提出了一种可行的预测方法。
其他文献
无线手持移动设备如手机、平板电脑、可穿戴设备等往往集成了大量的传感器,并且拥有更高的存储能力,更快的处理速度以及更大的网络带宽。近年来,手持移动设备和群智感知思想
目的:本研究通过流行病学研究方法,调查年轻育龄女性月经、中医体质的分布情况,探讨地理气候、情绪、饮食偏嗜、睡眠、运动等因素对月经、中医体质的影响,从而分析月经病、偏颇体质的发生原因,为减少和预防月经疾病的发生提供理论依据。方法:制定一般资料调查表、月经情况调查表、生活习惯调查表和中医体质分类与判定表,对天津中医药大学在读女大学生进行现场问卷调查。分析上大学前后女大学生月经情况、中医体质类型并加以分
近年来,光敏有机场效应管(PhOFET)得到了广泛深入的研究。然而,研究报道主要集中在如何提高器件的光敏特性,针对宽光谱响应范围的研究却不是很多。本论文提出了制备宽光谱响应P
当前计算机科学中的自然语言处理相关研究迅速发展,而寻求更好的句法解析则是众多自然语言处理系统中关键的一环。其中,依存分析句法凭借相对短语结构句法更直观简洁的表达形
目的:对比使用前稳定(anterior-stabilized,AS)型假体垫片和后稳定(posterior-stabilized,PS)型假体垫片的患者的早期临床功能、疼痛程度、相关并发症及术后步态分析情况,为骨科医生针对根据不同病情的患者选择相应的假体提供依据。方法:选取2018年03月至2018年12月在贵州省人民医院骨科诊断为膝关节退行性骨关节病(osteoarthritis,OA)的50例
大学生暑期社会实践作为高校实施共青团"第二课堂成绩单"制度的重要组成部分,在培养学生爱国情怀、探索精神、创新能力和团队意识等方面起到重要作用。针对高校开展暑期社会
目前,光线跟踪算法是当今图像合成中最流行、最强大的技术之一,该算法简单、优雅、易于实现。尽管光线跟踪算法可以模拟真实的光路和成像过程,然而现实世界的某些效果光线跟踪算法处理的不好(或者说一点也不好)。光线追踪算法不能模拟全局光照中的很多情况,比如说漫反射等。而光子映射算法正好可以弥补光线跟踪算法的缺陷。光子映射算法可以很好的模拟漫反射辉映、焦散等全局光照效果。不仅如此,光子映射算法也可以高效计算参
本文研究了差分隐私的主成分分析算法设计问题。基于学术界关注较少的纯差分隐私领域,我们探讨了如何在保护隐私的前提下、恰当地发布一个带噪音的对称半正定矩阵用于主成分
目的总结儿童椎间盘钙化症的特点和诊断治疗体会。方法2004~2009年诊治儿童椎间盘钙化症10例,其中颈椎间盘8例,胸椎间盘2例。回顾分析患儿的临床症状、体征以及X线表现。主要
会议
基站的拓扑结构是影响网络性能一个重要的因素。随着通信技术的不断发展,基站的数量和类型越来越多,分布也越来越复杂,传统的六边形网格模型则再也不能准确描述基站的分布。很多基于传统蜂窝网络模型的研究结论可能已经不适用于当前的情况,所以引入新的模型已经成了急需解决的问题。基于随机几何的模型,例如泊松点过程(Poisson Point Process,PPP),吸引了许多研究人员的注意。本文选取了中国的四个