【摘 要】
:
为了提高数据挖掘的效率与准确性,将k最邻近算法与样本均衡策略相结合,在海量数据挖掘中进行应用;首先对样本集文本进行分析,找出样本领域的密集分布区域,对样本密集区域进行
【机 构】
:
福州工商学院工学院,西安电子科技大学通信工程学院,桂林理工大学广西嵌入式技术与智能系统重点实验室,福建农林大学计算机与信息学院
【基金项目】
:
国家自然科学基金项目(61741303),广西重点研发计划项目(2017AC05027),广西自然科学基金项目(2018GXNSFAA294061),广西嵌入式技术与智能系统重点实验室项目(2017-2-5),福建省中青年教师教育科研项目(JT180867),福建省本科高校教育教学改革研究项目(FBJG20190171)
论文部分内容阅读
为了提高数据挖掘的效率与准确性,将k最邻近算法与样本均衡策略相结合,在海量数据挖掘中进行应用;首先对样本集文本进行分析,找出样本领域的密集分布区域,对样本密集区域进行有效裁剪优化,实现样本分布均衡,然后对经过样本均衡处理的数据样本执行传统k最邻近算法,根据权重获得分类结果,最后对不同k值的k最邻近算法进行实例仿真。结果表明,在相同的数据样本环境中,相比于其他分类算法,采用改进的k最邻近算法的分类准确度和分类效率更高。
其他文献
本文探讨乾嘉时期诗话中对韩愈诗风的归纳和研究。乾嘉诗人在继承前人研究的基础上,对韩诗的风格特色有着更为细腻也更为深刻的辨析。他们对韩诗的“奇险”风格褒贬不一,又在继
高校院系管理是高等学校管理的核心,也是决定高校办学质量的关键因素。高校院系管理的中心任务乃是如何处理秩序和自由的关系。秩序和自由是院系管理实践中的两难,而大学院系
针对卷积神经网络在进行图像分类时,存在单通道提取特征不充分和收敛慢等问题,提出一种改进的LeNet-5深度卷积神经网络模型。该模型对通道数量、层次结构等进行了改进,并设计局部误差结构,利用算法来增加局部误差产生数量和层间权值的调整次数。实验表明,与传统的LeNet-5网络相比,所提出模型收敛速度更快和分类准确率更高。
为了复原因相机抖动而产生的运动模糊图像,提出基于L p范数和全变分范数的正则化盲复原方法;首先,基于模糊图像的梯度稀疏性建立L p范数正则化模型,利用全变分范数保持图像的
在课堂观察中,最重要的核心工作之一是开发适切的观察记录工具,特别是观察量表。本文介绍了笔者研制的基于课堂教学中重要问题的观察量表,通过六个观察量表的呈现和使用介绍,
在"多供应商、单配送中心、单主机厂"的汽车零部件供应网络中,为解决由第三方物流(TPL)服务商在主机厂生产需求信息驱动下主导供应物流活动的库存-运输集成优化问题,构建汽车
在西部企业管理培训中,对案例教学法的认识和应用还处于较低水平.明确案例教学的内涵和作用十分重要.从企业管理培训的任务和成人的学习特点看,它是基本的、必须的教学工具之
为了解决入侵检测模型中海量数据处理问题,降低计算复杂度,提高检测精度,提出基于最小规则自组织映射的入侵检测算法;通过在真实的入侵检测数据集上进行仿真实验,将该算法与