【摘 要】
:
在信息化大爆炸的今天,如何高效地从现有复杂多变的信息中提取出人们所需要的信息是一个急需解决的难题。为了解决这个难题,机器学习、人工智能和模式识别等领域的学者们展开
论文部分内容阅读
在信息化大爆炸的今天,如何高效地从现有复杂多变的信息中提取出人们所需要的信息是一个急需解决的难题。为了解决这个难题,机器学习、人工智能和模式识别等领域的学者们展开了深入的研究,分类方法是其中重要的研究方向之一。经过多年的不懈努力,已有许多分类性能较好的方法应用于分类问题。然而这些分类方法主要是以整体的分类误判率、准确率和召回率等作为分类目标,这些分类性能的评价指标在不平衡数据集的分类问题中容易降低少数类和分布稀疏类样本的识别率。由于现实生活的需要,人们越来越重视少数类的分类精度,故在保证不平衡数据集整体分类质量的前提下提高少数类样本的识别率是一个值得研究的热点。本文主要研究了面向不平衡数据集分类的K-近邻法,具体的工作如下: (1)针对传统K-近邻法在寻找近邻样本时由于较大的相似度计算量而导致分类速度慢的不足,引入了代表样本和阈值。各测试样本的近邻样本只在其与各类代表样本相似程度不小于相应阈值的类中选取,从而减少了计算量,在不影响分类精度的同时提高了分类速度。 (2)对于传统K-近邻法对不平衡数据集分类精度低的问题,提出了类代表度与样本代表度。通过赋予类代表程度大的近邻样本和少数类样本较大权重来减弱多数类及分布密集类对分类的影响,从而提高了传统K-近邻法对不平衡数据集的分类精度。 本文以UCI分类数据集作为实验数据。通过比较传统K-近邻法与改进K-近邻法的各性能评价指标,结果显示改进的K-近邻法在一定程度上提高了分类性能。
其他文献
随着世界经济的迅猛发展,金融市场的研究逐渐成为投资者、经济体系管理者和学者关注的热点.传统的金融市场理论体系认为在一个有效的资本市场中价格遵循随机游走模型,而现代金
本文主要研究两台平行机上平行工件的在线排序和一类三阶段供应链排序问题。
全文共四章。
第一章介绍排序问题的基本概念和相关知识,并总结国内外研究现状及本文
赏识教育受到越来越多的家长和教育工作者的肯定和积极实践,然而在实践中却因个体差异和教育者的水平出现了不同的结果,本文从心理学的角度对赏识教育进行理解、分析和实践,
本文通过对2013 级北京舞蹈学院近些年毕业生供需见面会为窗,针对舞蹈专业毕业生的就业情况,从校方和家长、用人单位和学生之间、用人单位政策与毕业作岗位的关系,所呈现的三对
The advantage of built-up sleeved backup roll was described.Based on the stress distribution analysis and simulation for the built-up sleeved backup roll by usi
从事摄影工作数十年来,老旺的艰辛与快乐,可以用一句话概括:从黄土高坡到青藏高原,从茫茫林海到云贵高原,从五指山到广袤戈壁,一切艰难险阻都已成为过去,唯有生生不息的大地,
时间尺度为实数域上一非空闭子集,其理论可以统一离散和连续两种情况。故,可将时间尺度理论应用于动力学系统的研究中,即利用时间尺度理论将动力学中的离散系统和连续系统统一起
水文工作同时为社会、经济、环境、生态等领域中的水问题提供信息服务,而水文站网是整个水文工作的基础。随着社会发展和水利化现代化进程的加快,许多水文站网受到人为影响需要
Double self-adaptive fuzzy PID algorithm-based control strategy was proposed to construct quasi-cascade control system to control the speed of the acid-pickling