【摘 要】
:
分类研究作为机器学习、模式识别和数据挖掘等领域最主要的研究任务,一直受到学术界、工业界的持续广泛的关注。大数据时代的到来,更是为分类研究带来了前所未有的机遇与挑战
论文部分内容阅读
分类研究作为机器学习、模式识别和数据挖掘等领域最主要的研究任务,一直受到学术界、工业界的持续广泛的关注。大数据时代的到来,更是为分类研究带来了前所未有的机遇与挑战。随着粗糙集技术,特别是邻域覆盖粗糙集技术的不断发展和完善,大量相关算法被相继提出。特别是基于覆盖约简的分类方法,已成为当前的研究热点。本文就基于代表的邻域覆盖粗糙集分类算法,重点研究了不同相似度计算方法以及不同冲突解决机制对其分类性能的影响;同时根据算法特点设计出与之对应的五种主动学习策略,使改造后的算法能应用在主动学习的任务场景中。首先,本文重现了一种覆盖约简算法——基于代表的邻域覆盖粗糙集分类算法,并详细介绍了该算法在训练和测试阶段的工作原理。然后,本文对比了 Overlap,Eskin,OF,IOF,Gooda113和Gooda114六种不同相似度计算方法,在训练阶段对分类精度的影响。因为名词型数据的相似度计算方法与数值型数据的不同,它们会考虑值域空间以及分布规律等其他信息。所以研究不同相似度计算方法下的算法分类性能尤为重要。实验发现,Overlap和IOF相似度明显更适用于原算法。另外,本文还提出相似度模型、支持度模型、密度模型和属性权重模型四种冲突解决模型,研究了它们在测试阶段对分类精度的影响。原算法在测试阶段,特别是数据采样不均时,采用标准投票处理分类冲突的方法存在较大误分类风险。而本文提出的四种模型便能有效应对这类情况的发生。实验证明,原算法采用属性权重模型后能有效提高分类精度。最后,本文提出了基于代表性和基于不确定性的五种主动学习策略,设计出基于代表的邻域覆盖粗糙集主动学习算法。算法能根据当前己标记和未标记样本的信息,主动获取部分未标记样本的决策信息,从而不断更新分类器,不断加强分类能力。实验首先对本文提出的五种主动学策略进行对比,然后选择分类性能最好的学习策略与经典的AL-ID3,AL-Bayes和AL-kNN算法进行对比,验证了本文提出的基于异质QBC主动学习算法能在分类精度方面取得更好的结果。
其他文献
农地经营权抵押贷款在发放前重要的一环就是合理评估农地经营权价值。在开展农地经营权抵押贷款时,需要科学、合理地对农地经营权抵押价值进行评估,银行机构以评估的农地经营
固态变压器(Solid State Transformer,SST)作为一种新型的电能转换装置,在智能电网和分布式电源中具有重要的研究价值。受限于常规硅器件的耐压水平,迄今为止,学者们对SST的
随着现代项目管理理念和管理方式更加趋于科学化的发展,人们对现代项目管理有了更加深刻的认识。在现代工程项目管理中,不再局限于工期、成本和质量控制这三大目标当中,如今
核能作为一种可靠,环境上可持续且具有高成本效益的清洁能源备受瞩目。当前,对反应堆安全性的研究已成为了核能发展的第一要素。对事故容错燃料系统的研究开发便是一个提高商
人民币汇率问题一直以来都备受公众关注,人民币汇率的稳定不仅事关我国经济的发展,而且在一定程度上关系着国际经济环境的稳定,然而2015年人民币汇率一改第二次汇率改革以来
随着无线感知技术的快速发展和人机交互需求的迅猛增长,基于Device-free技术的人体行为识别成为研究的热点之一。相对于传统的计算机视觉技术和可穿戴传感技术,WiFi技术不仅可以用来传输数据,还可以以Device-free方式感知周围环境信息。然而,受多径效应以及周围环境影响,基于WiFi信号的行为数据复杂度较高;另外,现有人体行为识别方法需要手工提取特征,较大程度依赖于先验知识。本文以独居老人
农村土地整理是在一定的区域范围内,依照土地整理总体规划的要求,通过采取行政、法律、经济、工程技术等一系列的措施,提高土地利用效率、改善农业生产条件、保护农村生态环
现今,随着互联网的广泛应用,以互联网电商、手机短视频等为代表的互联网应用得到迅速普及,全球范围内的数据容量正以前所未有的速度快速增长。“数据过剩”但“信息匮乏”的现象日益突出,从海量数据中挖掘具有价值的新知识的需求愈发凸显。面对海量数据,传统知识发现算法存在对硬件需求激增和效率低的问题。本文对现有知识发现算法进行研究,提出基于“粗调与精调”工程思维的知识发现算法(FAMCF),提高海量数据知识发现
近年来,我国融资租赁交易呈现出井喷式的发展。无论是从登记在册的融资租赁企业数量上看还是从融资租赁交易额上看,融资租赁业务已经对我国经济发展和产业结构调整产生不容小
作为对知识产权保护的一种利益平衡机制,专利强制许可制度一直是各国专利立法框架中尤为关键的一环,其目的在于限制专利权的滥用。尤其面对国际立法中发达国家与发展中国家之