基于Volume Test的贝叶斯分类器研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:vvv_vvv
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘将传统的数据分析方法与处理大量数据的复杂算法相结合,目的是从大量数据中找出先前未知的有用知识。分类是数据挖掘领域研究和应用最广泛的一个分支。目前已知的分类技术中基于统计模型的贝叶斯分类方法是一种具有坚实理论基础与广泛应用价值的分类技术之一,这种方法计算简单,运行速度快,并且分类正确率高,已经成为近年来的研究热点。而构造贝叶斯分类网络的一个关键问题是寻找随机变量间的依赖关系,统计学自然而然地成为这一问题的理论来源。因此,研究基于统计学的贝叶斯分类器有重要的理论和实践意义。本文介绍了数据挖掘的有关概念。分析了分类器的构造方法与评估方法等,并着重分析了限制性贝叶斯分类器,包括不同的学习策略及与学习策略对应的典型分类算法,总结出限制性贝叶斯分类器的一个重要问题是寻找属性间的依赖关系。进而,研究了统计学假设检验中寻找属性间依赖关系的方法,并深入比较了卡方检验和Volume Test。在以上研究的基础上提出了基于Volume Test的树形贝叶斯分类算法。该算法在结构上采用了类似最大生成树结构,并使用Volume Test作为属性间依赖关系的判断标准。在理论和实验数据分析的基础上,又提出了一种朴素贝叶斯与树形贝叶斯相结合的分类算法,该算法充分吸收了朴素贝叶斯算法的优点、统计学的特点和假设检验的思想。更进一步地,在总结不同分类器学习策略的基础上,对本文以上两算法进一步改进,提出了基于评价与基于条件依赖相结合的贝叶斯分类算法,该算法结合两种学习策略的优点,提高了贝叶斯网络的灵活性。此外,在算法实现的细节方面,本文对三个算法的关键步骤最大生成树根节点的选择也进行了深入研究,经过实验分析,提出了使用第一个SuperParent作为根节点的方法。最后,在WEKA系统上实现了新算法和比较算法,并通过实验进行了多方面的比较。实验结果表明,本文三个算法分类正确率都优于朴素贝叶斯、TAN算法,而基于评价与基于条件依赖相结合的贝叶斯分类算法达到了与SuperParent算法几乎相同的分类正确率,且其运行速度明显优于SuperParent算法。
其他文献
科学计算可视化是发达国家二十世纪八十年代后期提出并发展起来的一门新兴技术。它将科学计算过程中及计算结果的数据转换为几何图形及图像信息在屏幕上显示出来并进行交互处
基于内容的图像检索(Content-Based Image Retrieval)研究的目的是实现自动地、智能地检索图像,研究的对象是使查询者可以方便、快速、准确地从图像数据库中查找特定图像的方
当前我国在音视频产业领域已经具备较强的产业基础,但由于没有掌握核心技术标准,相关企业长期受制于国外持有标准化专利与技术的企业和组织。为了在音视频产业领域拥有更多的
本文探讨一种白盒测试中测试用例自动生成的搜索算法,旨在为软件测试提供完整的测试用例。 路径覆盖是白盒测试中覆盖率最高的一种覆盖方法,结构化测试数据一般都是通过路径
自然语言描述的协议规范存在二义性问题,协议软件开发人员对同一协议规范理解的差异是导致其协议实现“百花齐放”的根本原因。协议实现与协议规范之间的丝毫偏差都可能给通信
急救护理学是一门理论性与实践性都很强的学科,其教学目的是:增强学员的急救意识,传授急救护理学的基本理论,训练急救技术操作的基本技能,培养学员在紧急情况下迅速评估、正
随着Internet的普及信息处理等高科技技术的不断发展,越来越多的企业也在广泛利用Internet技术进行数据共享等信息处理的应用,使得信息内容也正以惊人的速度增加,同时内部业务系
结构化文档检索系统利用文档的结构信息,对文档的部分内容建立索引并检索呈现,所得查询结果能精细化地表达查询需求。利用同义词扩展查询是实现基于语义检索的一种有效方式。
在基于内容的图像检索中有一种称为基于目标区域的图像检索方法,这种方法的主要思想是用目标区域的特征代替全局图像的特征进行检索。因此,其检索效率的高低主要取决于目标区
新时期世界各国军事的发展,迫使我军要在军事训练在内容和形式上做出变革,以进一步提高军队战斗力。本文涉及的射击对抗训练系统还原了近似真实的实战场景,在允许实弹射击的情况