基于集成学习的高维稀疏多标签文本分类

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:Nathan_YM
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现如今的人类生活在一个信息大爆炸的时代,从复杂信息中定位自己需求信息的要求也在不断提高。多标签学习就是这样一种技术,它可以为人们将信息准确的分门别类,为人们的生活生产提供极大的便利。正因如此,对于多标签学习的研究成为当前数据挖掘和机器学习领域的热门方向。相比于单标签分类问题,多标签分类研究的是样本同时对应多个标签的分类方法,它需要更加复杂的模型来学习。随着对多标签分类研究的深入,挖掘标签之间的关联以提高分类性能成为了研究学者们越来越关注的问题。其中文本分类是多标签分类中的一个重要方向,它的数据往往有着高维稀疏的特性,这种特性导致直接学习多标签分类模型十分困难,让学习的模型容易过拟合。集成学习是一种有效控制模型过拟合的学习方法,它可以使用不同的策略将一组弱学习器结合起来,产生比最好的单一学习器更好的性能。鉴于此,本文针对这些问题进行了研究:对于文本数据中的“维数灾难”问题,一般需要对文本空间进行降维,以此降低模型的复杂度,提高分类性能。为此,本文提出了一种基于样本规则的集成学习模型,它依据文本数据稀疏的特性,截取某些样本中特征和标签均为1的部分组成基分类器的学习空间,达到了使基分类器的维度大幅降低的目的。在基分类器的学习空间中,它的标签空间是某个样本标签集对应的空间,这个标签空间已经隐含了该样本内在体现的一种标签相关关系,通过LP方法训练该基分类器,使模型训练中能够利用这种标签关联。为了使集成之后的模型优于单个基分类器,提高集成的性能,通过给每个基分类器赋予一个向量权值,向量的每一维表示该基分类器对相应标签的支持度,然后用回归的方式学习这个向量。对实际生活中的智能法官场景,设计了智能法官系统,实现了各个模块功能。为验证本文提出多标签分类模型的有效性,选取多个高维稀疏多标签文本集进行对比试验。试验结果说明本文提出的方法能有效处理高维稀疏多标签文本数据。
其他文献
目的:1. 分析常规SPECT/CT(single-photon-emission computed tomography/computed tomography)和定量SPECT/CT显像的诊断效能,探讨定量SPECT/CT在乳腺癌骨转移诊断方面的优
目的:分析带状疱疹(herpes zoster,HZ)患者发病的临床特点,评估HZ患者发生后遗神经痛(postherpetic neuralgia,PHN)的相关风险因素,为预防PHN发生或降低其发生率提供临床依据
目的:生态病毒整合位点5(Ecotropic viral integration site 5,EVI5)作为调节细胞周期、胞质分裂和胞质转运的重要蛋白,在多种癌症中均被发现能促进肿瘤细胞的恶性进展。然而
17世纪,随着社会文化的进步,人们对文化知识的需求越来越多,印刷出版产业因此发展繁荣,促使图像复制的技术产生革新。由于绘画观念和使用的绘画材料的影响,在美柔汀技术出现
目的:探讨SVCI患者脑自发神经活动模式和功能连接变化及其与认知损害的相关性。方法:收集2017年9月至2018年12月就诊于安徽医科大学第一附属医院神经内科的皮质下缺血性脑血
随着web2.0时代的迅速崛起和智能硬件的普及,网络用户在互联网生活中发挥着越来越重要的作用。用户不再是被动的接受信息,而是更加主动的创造信息。与此同时,网络用户正面临
目的:本课题目的在于观察基础西药联合中药复方对冠心病稳定型心绞痛痰浊闭阻证的临床疗效。通过观察患者相关临床症状以及各项指标在服药前后的变化情况,评价此中药复方联合
吃墩类博弈是一类零和动态博弈,以桥牌为代表,是人类长期从事的智力活动。不仅能提高人类的智力水平,对工业生产、经济行为以及其他科学技术的研究都具有很高的指导价值。吃墩类博弈的求解是机器博弈领域的一项重要任务,其面临的主要问题有:博弈的规则往往是信息不完备的,不完备信息的预测依赖于完备信息的高效求解,而博弈的朴素复杂度往往是O(P(n!m))甚至更高,计算的复杂性是博弈求解的巨大障碍。针对上述问题,本
背景:大量研究表明,胚胎期暴露炎症对个体神经系统的发育有不利影响,可以导致老年期认知行为的改变。突触蛋白表达的变化可用于评估突触可塑性,并进一步评估学习和记忆,且某
背景最新研究表明,截止2017年全球慢性肾脏病(Chronic Kidney Diseases,CKD)患者约有6.975亿,占全球人口的9.1%,而中国患者1.323亿,居世界首位。矿物质骨代谢异常是CKD 2-3期