【摘 要】
:
随着人类社会和计算机技术的飞速发展,电子数据的积累出现了爆炸式的增长.这些海量的电子数据里面无疑隐藏着丰富的对人类深具价值的知识,而传统的在线处理系统(OLTP)只能利
论文部分内容阅读
随着人类社会和计算机技术的飞速发展,电子数据的积累出现了爆炸式的增长.这些海量的电子数据里面无疑隐藏着丰富的对人类深具价值的知识,而传统的在线处理系统(OLTP)只能利用其中的很少一部分.近年来不断完善发展的数据挖掘技术恰恰能帮助人们从数据中发现大量的隐藏知识,而分类正是其中的极其重要的技术方法.准确率、速度、强壮性、可伸缩性、可解释性是评估分类方法的五条标准,其中准确率又是重中之重.本论文就是在这几方面研究、分析了国内外比较流行的若干种分类方法:决策树分类、贝叶斯分类、神经网络分类、关联规则分类等等.另外,本论文还讨论了常用的评估分类法准确率的技术保持、k-折交叉确认和改进分类法准确率的两种常见技术装袋(bagging)(或引导聚集)、推进.k-最临近(k-NN)分类方法是一种基于类比学习的分类方法,在计算两训练样本的相异度时给每一属性加相同的权,这样会造成分类的准确性下降,尤其当存在很多无关属性时,甚至会造成混乱.根据信息论中概率信息的理论,数据集中每一属性所含有的信息量是不同的,可用平均互信息量(信息增益)来度量某一属性与类标号属性的相关性.也就是说,某一属性与类标号属性的平均互信息量越大,则它们之间的的相关性越大;反之,某一属性与类标号属性的平均互信息量越小,则它们之间的的相关性越小.据此,本论文提出了用每一属性的信息增益作为该属性的权来计算训练样本间的相异度的数学模型并将这一模型应用于k-最临近分类方法而得到一种新的分类方法:加权k-最临近(Wk-NN)分类方法,改善了原方法的分类质量,提高了原方法的分类准确率.并且,本论文选择了一个专门用于评估分类法性能的真实数据集,设计了一个评估k-NN分类方法和Wk-NN分类方法分类准确率的算法并且将其在计算机上实现.实验结果证明本论文对k-最临近(k-NN)分类方法的改进是科学有效的.
其他文献
SaaS (Software as a Service)是在本世纪初兴起的一种新的软件服务模式,与传统的某一服务软件单独为某一客户(用户)独立开发的服务方式不同,SaaS服务提供商需要为服务的使用
在该文中我们提出了一种基于随机过程、Multi-Agent System、knowledge-based系统和地理信息系统的可扩展模型来研究城市区域拓展问题,并实现了一个原型系统SASMUG(Stochasti
随着VoIP技术的快速发展,VoIP电话的使用已从实验室走向了普通Internet用户,近几年VoIP的商业应用也已由企业级的IP PBX发展到电信级应用,为大量的宽带用户提供语音通话服务,这就
本论文在通过对旋转机械设备故障机理和特征的研究分析的基础上,结合专家系统技术和计算机技术,分析了基于Internet的远程故障诊断系统的可行性和优越性,介绍了诊断系统的Bro
随着目前安全性问题日益突出,针对Linux平台的防火墙和入侵检测系统正在逐步推向市场,伴随着这些安全产品的推出,其运行环境也成了很多软件开发者关注的焦点。为了能防止防火墙
随着Internet的飞速发展,Web的访问呈指数级增长,Web服务器的负载越来越重。Web Cluster技术的出现有效解决了大访问量情况下Web服务器负载过重问题,并使得Web系统在低投入情况
近年来,随着我们产生和搜集数据的能力不断增强,在许多商业和政府事务中计算机的日益普及、以及在数据收集工具方面的不断进步,我们面临着大量的数据。成百万的数据库已经被用于
大气和海洋中的流场是典型的时变向量场,属于非线性动力系统.这类流场中发生的现象在多数情况下难以用解析形式描述和分析.因此,探索用科学计算可视化的手段,观察和研究这类
高炉煤气流分布状态是高炉上部布料操作的主要依据,它对于高炉生产的稳定运行,提高产量,降低焦比是非常重要的.虽然目前高炉十字测温的径向分布一般都能够保证是W型,但是寻求
现在电信网正向数字化、智能化、综合化和个人化的方向发展,传统的电话业务已经渐渐不能满足人们的需要.智能网技术以其快速的业务开发模式、简洁的业务控制和管理等优点,在