【摘 要】
:
在信息化大爆炸的今天,如何高效地从现有复杂多变的信息中提取出人们所需要的信息是一个急需解决的难题。为了解决这个难题,机器学习、人工智能和模式识别等领域的学者们展开
论文部分内容阅读
在信息化大爆炸的今天,如何高效地从现有复杂多变的信息中提取出人们所需要的信息是一个急需解决的难题。为了解决这个难题,机器学习、人工智能和模式识别等领域的学者们展开了深入的研究,分类方法是其中重要的研究方向之一。经过多年的不懈努力,已有许多分类性能较好的方法应用于分类问题。然而这些分类方法主要是以整体的分类误判率、准确率和召回率等作为分类目标,这些分类性能的评价指标在不平衡数据集的分类问题中容易降低少数类和分布稀疏类样本的识别率。由于现实生活的需要,人们越来越重视少数类的分类精度,故在保证不平衡数据集整体分类质量的前提下提高少数类样本的识别率是一个值得研究的热点。本文主要研究了面向不平衡数据集分类的K-近邻法,具体的工作如下:(1)针对传统K-近邻法在寻找近邻样本时由于较大的相似度计算量而导致分类速度慢的不足,引入了代表样本和阈值。各测试样本的近邻样本只在其与各类代表样本相似程度不小于相应阈值的类中选取,从而减少了计算量,在不影响分类精度的同时提高了分类速度。(2)对于传统K-近邻法对不平衡数据集分类精度低的问题,提出了类代表度与样本代表度。通过赋予类代表程度大的近邻样本和少数类样本较大权重来减弱多数类及分布密集类对分类的影响,从而提高了传统K-近邻法对不平衡数据集的分类精度。本文以UCI分类数据集作为实验数据。通过比较传统K-近邻法与改进K-近邻法的各性能评价指标,结果显示改进的K-近邻法在一定程度上提高了分类性能。
其他文献
岛屿旅游安全是滨海旅游开展的前提,而从游客视觉来分析海岛旅游安全能具体指导岛屿旅游安全管理。以中国东南沿海重要的旅游目的地湄洲岛为例,结合实地考察、深入访谈与问卷
<正>【教学内容】苏教版小学数学六年级下册第76~78页。【教学目标】1.认识扇形统计图的特点和作用,能看懂并能对扇形统计图所反映的信息进行简单的分析。2.经历构造和绘制扇
<正> 在早期流产中染色体异常约占50%。动物实验证明,硒(Selenium,Se)缺乏与原发性流产相关。Se是体内谷胱甘肽(Glutathione,GSH)过氧化酶的必需辅助因子,谷胱甘肽是防止自由
数字法庭的建设,让庭审实现从“旁听”到“看见”的变革;庭审直播,给群众“可视化的正义”;立案登记制改革后,人工电子诉讼服务员提供智能导诉服务,首个导诉机器人的入驻更受到群众
普遍应用的现代医药企业医药营销模式上,其自身存在着不可避免的缺陷,与国内医药产品面临的处境和现代各种纷繁的所谓的"营销模式"(无异于销售手段、方式)都使中国的医药产品
<正>创建"国家公共文化服务体系示范区",是以政府为主导、公共财政为支撑、全民为服务对象、基层特别是农村为重点,集成、整合、提升公共文化服务体系建设成果,进一步推动公
P2P网络借贷作为新兴行业,经过近三年的高速发展逐渐走向规范化的发展道路,随着各项监管细则的相继出台,监管部门对网贷平台的定位和发展方向更加明晰。平台的发展虽然受到信
我国的海洋旅游文化正在伴随着海洋事业的振兴而迅猛发展,但同时面临着影响其可持续发展的不可忽视的问题:一、重“旅游经济”轻“旅游文化”,甚至以“旅游经济”的理念替代
分散式农村生活污水处理设施点多面广,缺乏有效的管理模式,无法保障设施的正常运行和出水的稳定达标,成为农村水环境整治的难题。在分析我国农村生活污水水质及排放特征的基
<正>氧化铝纤维属于高性能无机纤维,其主要成分是三氧化二铝(Al2O3),其它微量成分有二氧化硅(SiO2)、三氧化二硼(B2O3)、氧化锆(ZrO2)、氧化镁(MgO)等金属氧化物,