基于半监督学习的随机森林算法研究与应用

被引量 : 0次 | 上传用户:haose1989
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器学习是人工智能的核心研究内容之一,它包含三个重要的研究领域:监督学习,半监督学习和无监督学习。监督学习需要利用带标签样本进行训练,以保证其泛化能力。而无监督学习不需要利用带标签数据,但不能保证其模型准确率。随着计算机应用技术的发展,企业信息化建设水平日益提高,传统的质量控制手段难以满足实际生产的需要。随着新检测技术的引进,容易获取的是大量无标记数据,而对数据进行人工标记的代价很高。因此,将少量带标记数据和大量无标记数据结合的半监督学习成为研究热点。传统的分类算法在少量标记数据上难以得到精确的分类模型,因此,难以在实际应用中发挥作用。本文将半监督学习引入到传统的分类算法中,尝试利用无标签数据具有的额外信息指导分类模型的建立,提高分类性能。通过实验验证将半监督学习应用到近红外光谱数据的分类中具有重要的理论和实际应用价值。不仅减少了人工标注样本的成本和时间,而且有效提高分类精度。本文的研究成果包括:(1)提出了一种基于数据剪辑的半监督随机森林算法。将半监督学习和数据剪辑方法引入到传统的随机森林算法中,利用决策树的对等分类器集合对无标签样本进行预测,选取置信度大于默认阈值的样本加入到训练集合中。为了防止错误标记的样本影响分类器性能,对新标记样本进行收敛性分析和数据剪辑操作。收敛性分析判断新标记的样本能够使分类器性能逐渐提升。数据剪辑方法使用RemoveOnly方法进一步移除错误标记样本。通过实验证明,基于数据剪辑的半监督随机森林具有较好的泛化性能,解决了标记样本不足时建模困难的问题。(2)将本文提出的算法用于使用近红外光谱进行卷烟产品感官评估的实际应用中。通过对比实验,验证了该算法在近红外数据上能够建立性能较好且稳健的分类模型。证明了该算法具有实际的工程应用价值,在实际生产中具有很好的指导意义。
其他文献
目的:通过问卷调查分析喀什地区伽师县克孜勒博依乡和和田地区墨玉县喀尔赛乡维吾尔族妇女对宫颈癌及人乳头状瘤病毒(Human Papillomavirus,HPV)认知程度并进行干预,从而探讨健康
近些年来,随着经济的快速发展和科技的进步,我国的医疗水平有了很大的进步,但是由于医疗行为的特点以及人们维权意识的提高,当人的生命健康权因不当救治而受到威胁时,就会带来医患
随着我国旅游产业的快速发展与游客旅游的个性需求多元化,原真性问题已经成为景区旅游的热点问题。原真性直接关系到游客的体验质量。进一步影响着旅游的满意程度,从而影响到游
数字电路因其抗干扰能力强、便于计算机处理等优点,广泛应用于电视、雷达、通信、电子计算机、自动控制、航天等科学技术领域,是各类电子信息系统的重要组成部分,在社会生产
伴随房地产市场化改革进程的不断深入以及我国城镇化步伐的加快,中国的房地产业得到非常快速的发展,全国商品房平均价格呈现出逐年攀升的趋势。与此同时,居民收入差距持续扩大也
目的:本实验将研究COPD患者与健康对照组中血清IL-27水平变化,探讨其在COPD患者中的发病机制,并通过IL-27与COPD患者肺功能指标之间的相关性分析,初步探讨IL-27、炎症及气流阻塞
特殊教育是一个发展中需要我们关注的教育类型。在我国,1946年全国仅有42所盲聋哑学校,在校的学生不到2000人。发展至2005年,全国共有特殊教育学校1593所,在校残疾儿童36.44万人
新疆作为我国辣椒产业的一只新军,近年来发展的速度非常快。为充分利用新疆得天独厚的自然条件,增加我国调味辣椒酱制品的丰富性和多样性,使我国的辣椒制品向高端制品发展,同时给
随着信息技术的发展和国家对海洋资源和海洋环境的日益重视,海洋观测技术的研究变得尤为重要,无形之中促进了海洋观测系统的发展。由于国家对海洋观测领域的探索不断深入和重视
差分进化算法在处理连续域、非凸、不确定性和全局优化问题时具有优势,已在包括电力系统最优潮流在内的诸多领域得到广泛应用。电力系统最优潮流是一个复杂的非线性优化问题,要