NBC分类器的理论研究及改进

来源 :上海财经大学 | 被引量 : 0次 | 上传用户:juju108
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,人们利用信息技术进行生产、收集和研究数据的需求及能力迅速提高,海量数据被用于商业管理、政府办公和科学研究等领域中来。随之而来的一个问题是,我们所获得的知识并没有随着信息的增长而增长,这就是信息过量与知识贫乏之间的矛盾。在此形势下,数据挖掘应运而生,并已成为当前一个十分活跃的研究领域。 在数据挖掘的研究和应用中,作为一种预测性的建模任务,分类一直受到很大的关注。在众多的分类模型中,应用最为广泛的两种分类模型是决策树模型和NBC模型。对于它们两者至今还没有完整和系统的比较研究,所以本文按照分类模型的各个评价标准,对NBC模型和C4.5决策树模型做出了一次较为全面的比较研究。综合来讲,没有哪个模型在所有方面都胜出它的对手。基于NBC模型在分类领域这种不可替代的作用,本文的着眼点是对其进行理论研究,而后改进NBC模型。 NBC模型是一种简洁而有效的分类模型。理论界一般认为,NBC模型的主要缺点是:它假设属性之间相互独立,从而影响了它的预测准确率。本文在总结现有独立性假设研究的基础上,通过例子和实验分析得出结论:NBC模型的表现和独立性假设是否满足没有必然联系。上述结论对从理论上探索如何改进NBC模型起到了积极作用。因为现有理论认为,NBC模型的主要缺陷是其不现实的独立性假设,所以目前的许多改进策略都是从这方面入手,即放松或改进NBC模型的独立性假设或者调整算法来适应独立性假设的需要,从而提高它的分类准确性。基于本文的研究结论,本文放弃了从上述方面改进NBC模型的努力,转而寻求其他方法。 为了有效提高NBC模型的分类效率,本文在总结现有NBC模型改进方法的基础上,提出并实现了基于模糊属性选择策略的NBC改进方法。本文所建议的改进策略的基本思想是,首先衡量数据集中每个属性的重要程度,将其量化为属性重要因子;然后通过模糊处理函数来调整各个属性在NBC模型中对分类的贡献程度,使得各个属性的分类贡献程度和其重要程度相匹配,从而提高NBC模型的预测准确率。利用数据挖掘者常用的UCI数据集进行实验,证实这种基于模糊属性选择策略的改进方法是可行的。一个具体的模糊处理函数对应着一种具体的模糊属性选择策略的实现方法,所以模糊处理函数的多样性就决定了模糊属性选择策略实现方法的多样性。应该指出的是,获取比本文所使用的两种模糊处理函数更为有效的函数,还需要一段过程。
其他文献
不少报纸根据人民群众对文化生活需求的新情况,开辟了《文化生活》园地。如人民日报的《文化生活》、湖北日报的《文化之友》、天津日报的《文化园地》等,这对培养人们的审
作为银行利润最丰厚的业务之一,信用卡业务受到国内商业银行的普遍重视。近年来国内信用卡行业竞争日趋激烈,但产品与服务同质化、对高价值客户的识别能力差、营销策略单调等问
学位
统计套利是利用证券市场暂时不能达到有效性的一种投资方式。它的基本思想类似于套利,但是强调在统计意义上能够赚得无风险超额收益。统计套利自上世纪80年代以来已经被广泛应
钢铁企业在现今世界经济不断进步,科学技术不断发展的情况下,面临着巨大的市场压力:一是新产品不断的出现,使得产品生命周期缩短;二是客户对订单的要求愈加严格,不但要求产品的多样
122团场二营九连职工王万里等四人,1981年用0,015毫米聚乙烯薄膜地面覆盖种植的36亩棉花,获得了高产,总产皮棉1,0434.94市斤,平均单产289.9斤,比同一块地未覆膜的高163斤,增
辽宁省大洼农垦局位于辽河下游,渤海之滨,地势低洼,土质盐碱,是一个以种植水稻为主的国营农场群。近年来,在大搞农田基本建设,不断提高条田标准的基础上,大面积推广了杂交稻
随着工业生产规模的不断扩大,资源大量流失、大量消耗、大量废弃的经济发展特征日益显现出来。传统的环境管理已无法从根本上解决日趋严重的环境污染问题,此时实施兼顾污染治理
1.选育经过及试种情况“78—1000”是湖南省农科院水稻所1974年用湘矮早8号作母本、湘矮早9号作父本杂交,于1978年第七代定型育成的一个迟熟早籼品种。1979年参加品系鉴定,生
当代中国民营企业的发展已经经历了30年,民营企业在发展和壮大中,不断的吸收各种管理经验,在人力资源管理方面,民营企业有着先天的弱势。  作为一种风靡全球的促进企业经营管理
自1984年以来,我们采用一定的技术程序,筛选环境敏感型的核不育材料。1987年在R59品系的20株群体中发现了10株7-8月份表现雄性不育,9月又转为雄性可育的育性变异株。收获不