论文部分内容阅读
数据挖掘将传统的数据分析方法与处理大量数据的复杂算法相结合,目的是从大量数据中找出先前未知的有用知识。分类是数据挖掘领域研究和应用最广泛的一个分支。目前已知的分类技术中基于统计模型的贝叶斯分类方法是一种具有坚实理论基础与广泛应用价值的分类技术之一,这种方法计算简单,运行速度快,并且分类正确率高,已经成为近年来的研究热点。而构造贝叶斯分类网络的一个关键问题是寻找随机变量间的依赖关系,统计学自然而然地成为这一问题的理论来源。因此,研究基于统计学的贝叶斯分类器有重要的理论和实践意义。本文介绍了数据挖掘的有关概念。分析了分类器的构造方法与评估方法等,并着重分析了限制性贝叶斯分类器,包括不同的学习策略及与学习策略对应的典型分类算法,总结出限制性贝叶斯分类器的一个重要问题是寻找属性间的依赖关系。进而,研究了统计学假设检验中寻找属性间依赖关系的方法,并深入比较了卡方检验和Volume Test。在以上研究的基础上提出了基于Volume Test的树形贝叶斯分类算法。该算法在结构上采用了类似最大生成树结构,并使用Volume Test作为属性间依赖关系的判断标准。在理论和实验数据分析的基础上,又提出了一种朴素贝叶斯与树形贝叶斯相结合的分类算法,该算法充分吸收了朴素贝叶斯算法的优点、统计学的特点和假设检验的思想。更进一步地,在总结不同分类器学习策略的基础上,对本文以上两算法进一步改进,提出了基于评价与基于条件依赖相结合的贝叶斯分类算法,该算法结合两种学习策略的优点,提高了贝叶斯网络的灵活性。此外,在算法实现的细节方面,本文对三个算法的关键步骤最大生成树根节点的选择也进行了深入研究,经过实验分析,提出了使用第一个SuperParent作为根节点的方法。最后,在WEKA系统上实现了新算法和比较算法,并通过实验进行了多方面的比较。实验结果表明,本文三个算法分类正确率都优于朴素贝叶斯、TAN算法,而基于评价与基于条件依赖相结合的贝叶斯分类算法达到了与SuperParent算法几乎相同的分类正确率,且其运行速度明显优于SuperParent算法。