基于三支决策和主动学习的分类方法研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:lyd936
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的来临,数据给人们的生活带来了形形色色的改变,数据的获取已不再是问题,但是数据的标签不能直接获取到,往往需要分析数据的特征去识别数据的标签,若为每条数据都打标显然需要消耗很大的资源。主动学习方法的目标是尽可能使用少量的训练样本实现较高的分类性能,旨在解决样本无标签的问题。现有的主动学习算法虽然基于样本的价值评估对样本进行了合理的选择,但是依然会忽略有价值信息,引入信息冗余的样本。三支决策的核心思想是通过引入一对阈值参数?和?,将一个论域划分为三个没有交集的区域,定义为正域、负域、边界域。对不同区域选择与之对应的处理方法,以实现分而治之。这为不确定性、模糊性、繁杂性问题开辟了新的解决途径。本文结合三支决策理论,展开了基于三支决策的主动学习方法的研究,主要工作如下:(1)本文将三支决策的思想应用到主动学习中,提出了一种基于三支决策的主动学习方法(TWD_Active方法)。首先,基于Margin策略来计算无标签样本的不确定性;其次,根据样本不确定性完成对无标签样本空间的区域划分:正域、负域、边界域;再次,根据每个区域表现出的特点选择与之对应的处理方法,这种从个体差异出发,有目的进行样本选择的方法可以剔除掉没有信息价值的样本,选择出信息量高、有价值的样本。使模型的分类性能、泛化性得到提升。本文在多个UCI数据集上进行对比实验。实验结果显示,文中提出的TWD_Active方法在F-value、AUC等评价指标上都取得了不错的效果,验证了该算法的有效性。本文算法基于三支决策对主动学习进行了拓展,可有效处理数据无标签问题。(2)结合Spark分布式并行计算框架,提出了基于三支决策的并行化主动学习方法。首先,对读入的数据源建立分布式数据集(RDD),以便通过对RDD分区,实现对任务的并行操作;其次,实现TWD_Active方法中样本不确定性计算的并行化,并完成区域的划分;再次,对负域和边界域的样本进行并行化处理。Spark没有将过程中的运算结果写入磁盘,而是全程基于内存运行的。这种基于内存的编程模式有效的提高了算法的执行速度。此外,通过对并行算法的实验验证,证明了基于三支决策的并行化主动学习方法可以有效提高对大规模数据集的处理效率。
其他文献
阅读是学生学习历史最为基础、常用的手段,提高初中生的历史阅读能力是新课改的要求;是历史学科教学和素质教育的要求;同时历史阅读能力的提升有利于学生自身全面和持久的发
陶行知教育理论中的"教学做合一",给教育工作带来了很多启示,在陶先生看来,教学不是一件事而是三件事。教与学之所以能统一就是统一在"做"上,只有在"做"中教的才是老师,在"做
现阶段,在人们生活水平提高的同时,其法制观念也不断增强,相应的我国的法制建设也迈出了新的台阶。近几年,火灾问题频繁发生,但其认定结果并不科学准确,尚存在很大的纰漏,尤
三支决策作为一种更加符合人类认知的粒计算方法,能合理有效地从不确定信息中抽取有用的知识。作为三支决策理论的起源及主要研究分支,基于决策理论粗糙集的三支决策模型已成为处理不确定信息的重要工具。然而,基于决策理论粗糙集的三支决策模型仍然存在很多值得进一步研究的问题。如,现有的研究在构建风险度量函数时几乎都忽略了等价类之间的差异信息。因此,本文深入地研究了基于决策理论粗糙集的三支决策模型及其改进模型,提
写字是一种实用技术,书法是一门具有个性情感和审美表达的艺术。书法教育在写字教学的基础上提出来,就应有书法艺术性的体现。不论是教学内容,还是教育功能;不论是教学方法,
近年来数学文化这一词的使用频率在不断增加,大家对“数学文化”的重视,体现了对数学人文价值的新认识以及数学观和数学课程观的新变化,这些都促使“数学文化”进入了广大研
大数据时代,从海量的数据中发现并提取出有价值的、潜在的知识,已成为当今数据挖掘过程中的重要任务,建立高效的分类模型,进行信息的规范化处理,是数据挖掘过程中重要的研究
在中学教学教师继续教育和师专的《数学竞赛》课程中,不等式的证明是重要内容之一。本文针对不同类型的不等式,从不同的思考角度,阐述了证明不等式正确性的诸种基本方法与规
介绍了倒装互连技术的工艺原理,阐述了红外焦平面器件倒装互连的工艺特点。通过系列实验和分析,最终优化并确定了百万像素级红外焦平面器件倒装互连的工艺参数,获得了良好的
自信心在儿童的成长过程中有着重要的作用。儿童自信心水平的高低不仅会影响到儿童的学业,还会影响到儿童的情绪与行为,甚至会影响到儿童的一生。相对于普通家庭儿童而言,有