【摘 要】
:
近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在可以广泛适用的大量数据,并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以应用于各种领
论文部分内容阅读
近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在可以广泛适用的大量数据,并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以应用于各种领域,包括商务管理、生产控制、市场分析、工程设计和科学探索等。本文主要关注于数据挖掘的一个分支,即分类问题,综合了一种集成算法和一种改良的分类算法,设计了一个基于距离学习的集成的KNN分类器。这种分类器首先对数据集的所有属性进行了的过滤处理,计算训练集所有属性的信息增益,把信息增益小于某一阈值的属性作为不相关属性过滤掉。然后选择了装袋(Bagging)的集成方法来构建子分类器:一方面,利用自助(Bootstrap)法随机抽取了训练数据集的样本以建立多个子分类器,另一方面,对每一个已建立的子分类器的所有属性再次进行了随机剔除,这种对输入属性添加扰动的方法不但保证了子分类器准确性,同时也增加了子分类器之间的差异性。之后,每一个子分类器都选择一种基于距离学习的KNN分类算法来计算分类结果,其中KNN的距离学习模块采用了邻近成分分析(NCA)算法。最后,利用多数投票制综合分类结果,获得最终判定。实验数据表明,与单一的集成KNN分类器或者单一的距离学习KNN分类器相比,新分类器的正确率的得到了很大的提升。
其他文献
当前Web的最大缺陷之一在于没有赋予网络上的资源足够的语义信息,计算机不能理解各种信息的含义,这是促使Web向语义Web转变的根本原因所在。在语义Web中,语义Web描述语言OWL
目的探讨腹腔镜手术治疗肾上腺嗜铬细胞瘤的手术安全性。方法采用经腹腔径路腹腔镜手术治疗肾上腺嗜铬细胞瘤患者15例,对照组为同期开放手术治疗的肾上腺嗜铬细胞瘤42例,两组
<正>目的:儿童原发性肾病综合征血栓(PNS)发病率高,国内外报道均有不同程度的发生率。本文探讨苏州大学附属儿童医院肾脏科单中心研究尿激酶预防儿童原发性肾病综合征血栓形
对社会主义代替资本主义的历史必然性的再认识张安弟社会主义必然代替资本主义,这是马克思主义关于科学社会主义的核心,它是决定这个时代发展方向的历史主题。在新的历史条件下
目的观察急诊胸痛患者中,缺血修饰白蛋白(ischemia modified albumin,IMA)在心肌缺血引起的心源性胸痛者中的变化情况、其在不同疾病组人群中水平的差异以及对急性心肌缺血严
助读系统是语文教材的重要组成部分,对整个语文教学起着举足轻重的作用。通过比较翰林版与粤教版高中语文必修教材助读系统在题解与作者介绍、插图、注释、练习等方面设置与
<正>世界军队中,印度军队多少有点另类,印军高官和媒体习惯性将自己比作亚洲第一;另一方面,军队的实际训练水平和作战能力鲜有惊人之处。第一个用潜射导弹击沉潜艇,第一艘被
湿地既是地球上独特的、具有多种功能的生态系统,又是最富生物多样性的生态景观和人类非常重要的生存环境。广西桂林市会仙喀斯特湿地是中国最大的湿地之一,担负着重要的环境
物业公司经营管理业务流程之于地产营销中重要一环的管理,是一项系统性的概念,其管理必须依托策略分析和研究现状,进而在新形势下的发展趋势中依托于企业发展管理。物业管理
目前,以畜牧业为发展重点的新疆农村经济结构的第三次调整正在展开,畜牧业的发展又将以乳业的发展为中心.从国外发达国家乳业在国民经济的地位及国内现状看,中国的乳业具有很