自适应半监督集成分类算法在高维数据上的研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:alucardlr
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前机器学习在各个行业都得到了极为广泛的应用,对于模式分类的任务,有标签数据的获取需要耗费大量的人力和物力。相反的,无标签的数据往往比较容易收集到,并且很多数据往往特征维度都很高,这种环境下就产生了高维数据的半监督分类问题。当前的绝大多数半监督分类算法,特别是基于图的半监督分类方法,只是关注如何将无标签样本和有标签样本拟合样本分布,却忽略了当应对高维数据时,样本的噪声和冗余特征会造成较大的学习误差。面对高维数据时,一般的研究是进行半监督特征抽取方法(维度约减或流形学习),而这类方法并没有结合无标签信息到分类过程,特征选择也只是结合一种目标视图进行选择。传统随机子空间技术,容易丢失重要信息,当进行多个子空间集成时,并没有区分每个子空间的重要度,子空间的学习在有标签数据量少的情况下容易产生较大误差,并且子空间等的参数设置比较影响学习效果。本文从子空间的角度入手,提出了两个半监督集成分类算法模型。这两个模型基于启发式选择算法和协同学习的思想,利用样本标签置信度高的辅助训练集来进行特征的单目标或多目标优化选择,并结合流形图结构来进行分类器的训练,在子空间局部与全局选择时使用辅助训练集进行子空间的权重学习。第一个算法模型是基于自适应选择的半监督集成分类算法(ASCE),ASCE的特征子空间的选择是基于单目标的选择,最后的集成策略是从全局进行子空间权重的优化选择。第二个算法模型是基于多目标自适应子空间的半监督集成分类算法(MOSCE),MOSCE针对特征选择中的重点,从特征的相关性、冗余程度以及构造误差进行多目标优化选择,最后利用辅助训练集选出局部最优的子空间,提升单一子空间对应的学习器的性能。这两个模型紧密结合半监督学习,能较好地提升高维数据集的半监督分类问题的准确性、鲁棒性。本文在18个高维数据集上验证提出的两个半监督集成分类算法的性能,不仅与经典前沿的半监督分类算法进行对比,还具体分析了提出的两个半监督集成分类算法的关键技术以及算法的参数敏感性。整体的实验结果表明,本文提出MOSCE和ASCE在高维数据的半监督分类问题上能取得较好的分类效果。
其他文献
王承芝,湖南省醴陵人,1962年出生在陶瓷艺术世家,其父亲王建国为醴陵著名艺术家,从小受艺术熏陶。1982年湖南省轻工技校美术专业毕业,同年进入湖南省醴陵群力瓷厂从事陶瓷设
城市森林游憩可分为两类,即日常性游憩与专题性游憩;提出要发展郊区城市森林以及建设郊野游憩带的概念,为城市居民提供更能亲近自然的游憩活动机备必须通过合理规划、建设与调整
<正>"另类平台"的第二场是主办方以《单身狗》(Lonely Dogs)为主题,将三位个性十足的独立艺术家的三支独舞《功》(Kudoku)、《倒立之树》(Inverted Tree)、《半月》(Half Moo
期刊
数字多媒体技术的发展为我们的工作和生活提供了很多成熟、可靠、灵活、高效、高质量、低成本的多媒体信息。随之衍生的各类图像处理技术使得数字产品的获取、处理、存储、复
以生物活性高的厌氧颗粒污泥为对象,研究了U(Ⅵ)初始浓度、pH值、颗粒污泥的投加量和SO42-浓度对颗粒污泥处理含U(Ⅵ)废水的效果。结果表明:当U(Ⅵ)初始浓度为9.6 mg/L,湿颗粒污泥
客户信用评估是银行等金融企业日常经营活动中的重要组成部分。一般违约样本在客户总体中只占少数,而能按时还款客户样本占多数,这就是客户信用评估中常见的类别不平衡问题。
近年来,数据挖掘逐渐成为各类研究者争相研究的热门课题。其中KNN分类算法由于其简单、易于实现等特性已经被广泛应用于金融分析等各个领域。但是传统KNN算法需要当前待分类
基于我国丰富的水电开发资源,分析水电开发面临的制约因素,提出水电资源开发的前景及对策,同时阐明了水电开发对于构建和谐社会,促进我国经济社会发展和环境保护的重要性和紧迫性
本文给出了一种采用阻尼力作为控制量,并通过神经网络逆模型得到驱动电流的磁流变半主动悬架控制方法。结合Skyhook算法和ADD(Acceleration-Driven-Damper)算法的思想,本文给
文章实证检验展会服务场景对参展商感知价值、满意度及行为意向的影响。文章以第39届中国(广州)国际家具博览会的参展商为研究对象,采用问卷调查法收集数据,收集到169份有效