基于粗糙集的主动学习方法研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:hanben1104
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
主动学习是机器学习领域的重要研究方向。传统的主动学习方法通常选择不确定性的或者具有代表性的样本供专家打标,然后添加到已标记的数据集中供分类器学习。现有主动学习方法主要存在以下三个问题:(1)样本重要性度量不全面;(2)样本空间结构信息利用不全面;(3)对于野点的处理不够完善。粗糙集理论是处理不确定性问题的新方法,能够根据数据分布自主地进行知识获取,粗糙集理论为主动学习提供了新的解决思路。本文结合粗糙集理论,对主动学习方法开展了研究工作,取得了如下创新点。(1)提出了基于邻域粗糙集的主动学习方法。首先,结合邻域粗糙集对无标记样本进行邻域缩减,可有效地对样本集做预处理;其次,本文将邻域粗糙集理论与主动学习相结合,在样本选择的计算过程中,计算了无标记样本的不确定性和泛化性,以此来衡量该样本的重要性。该方法能在主动学习的迭代过程中优先挑选出更重要的样本进行查询,以此提高模型的性能。在此基础上,提出了基于粗糙集的主动学习方法,可对无标记样本进行主动学习。(2)提出了基于Spark平台的主动学习样本缩减算法,并应用于大规模样本缩减。基于邻域粗糙集的主动学习串行方法存在部分计算瓶颈,效率较低。本文采用Spark内存迭代计算技术,提出了基于Spark的主动学习样本缩减方法。将主动学习应用于大规模有标签样本集的数据缩减中能较好地过滤噪声数据,并在少量数据上效果几乎与全部数据性能相当。改进后的算法的实际复杂度大大降低,改善了原算法的执行效率。基于粗糙集的主动学习方法的实验结果表明:在UCI数据集上,文中提出的基于粗糙集的主动学习方法充分利用了数据的分布信息,同时结合了样本的不确定性计算、代表性计算和野点选择的处理,是一种有效地解决主动学习样本选择问题的算法。在Accuracy、AUC等指标上优于文献中的主动学习算法。此外,并行化实验结果表明:并行算法不但能保持算法的有效性,并且还能大幅度地降低算法执行时间。
其他文献
可再生能源是我国重要的能源资源,对促进经济发展等方面具有重要作用,作为再生能源利用的太阳能热水技术的发展已日趋成熟,通过分析太阳能热水系统的特点,以某高校新校区学生澡堂
文章阐述了即墨市广电网络数字化转换的的经验做法,提出了对广电网络进行改造,必须做好各个细节,使网络的质量达到数字电视的传输要求,这是广播电视技术体系应该力求做到的,也是网
本文结合当前单片机嵌入式Intrenet技术的发展现状,对Web应用的设计与实现等问题进行具体分析与阐述。
在贯彻《中央宣传部、国家经贸委关于加强和改进企业思想政治工作的若干意见》中,为落实"加强政工队伍建设"的精神,我们对武钢从事思想政治工作的重要骨干队伍——基层党支部
介绍了汽车玻璃升降器的分类,电动式软轴玻璃升降器的组成及其工作原理。用UGII软件对某轿车车门板的曲率进行分析,根据分析结果和车门结构,设计了相应的电动玻璃升降器。介绍了
随着技术的发展和各种应用的出现,IP网络多业务承载已成为发展方向,因此IP网络必须为其承载的每一类业务提供相应的服务质量。本文通过分析IP承载网多业务的特点,提出了一套IP承
对邓小平理论认识上的偏差,归纳起来,主要有三种:一是认为《邓小平文选》大多是谈话、讲话,理论性不强,不像是理论;二是讲了许多老祖宗没有讲过的甚至有悖于老祖宗的话,不像
本文采用文献资料法、问卷调查法、访谈法和数理统计法等方法,针对韶关学院公共体育教学改革实际,对“一专一辅”的体育教学模式的实践效果进行论证,比较分析传统体育教学模式与
舞蹈是一门艺术,表达人们的思想和情感。随着人们生活水平的提高,学校和家长都更注重孩子综合素质的培养。舞蹈不仅可以修身养性,还可以帮助塑造美的形体。对于孩子来说,舞蹈还可
海上石油平台在对讲通信方面,目前采用模拟集群通信,进行语音对讲。频率需无线电委员会审批且信道的资源限制,现实生产中需一套基于高速宽带LTE基站的多媒体指挥调度系统进行辅