论文部分内容阅读
近年来,人们利用信息技术进行生产、收集和研究数据的需求及能力迅速提高,海量数据被用于商业管理、政府办公和科学研究等领域中来。随之而来的一个问题是,我们所获得的知识并没有随着信息的增长而增长,这就是信息过量与知识贫乏之间的矛盾。在此形势下,数据挖掘应运而生,并已成为当前一个十分活跃的研究领域。
在数据挖掘的研究和应用中,作为一种预测性的建模任务,分类一直受到很大的关注。在众多的分类模型中,应用最为广泛的两种分类模型是决策树模型和NBC模型。对于它们两者至今还没有完整和系统的比较研究,所以本文按照分类模型的各个评价标准,对NBC模型和C4.5决策树模型做出了一次较为全面的比较研究。综合来讲,没有哪个模型在所有方面都胜出它的对手。基于NBC模型在分类领域这种不可替代的作用,本文的着眼点是对其进行理论研究,而后改进NBC模型。
NBC模型是一种简洁而有效的分类模型。理论界一般认为,NBC模型的主要缺点是:它假设属性之间相互独立,从而影响了它的预测准确率。本文在总结现有独立性假设研究的基础上,通过例子和实验分析得出结论:NBC模型的表现和独立性假设是否满足没有必然联系。上述结论对从理论上探索如何改进NBC模型起到了积极作用。因为现有理论认为,NBC模型的主要缺陷是其不现实的独立性假设,所以目前的许多改进策略都是从这方面入手,即放松或改进NBC模型的独立性假设或者调整算法来适应独立性假设的需要,从而提高它的分类准确性。基于本文的研究结论,本文放弃了从上述方面改进NBC模型的努力,转而寻求其他方法。
为了有效提高NBC模型的分类效率,本文在总结现有NBC模型改进方法的基础上,提出并实现了基于模糊属性选择策略的NBC改进方法。本文所建议的改进策略的基本思想是,首先衡量数据集中每个属性的重要程度,将其量化为属性重要因子;然后通过模糊处理函数来调整各个属性在NBC模型中对分类的贡献程度,使得各个属性的分类贡献程度和其重要程度相匹配,从而提高NBC模型的预测准确率。利用数据挖掘者常用的UCI数据集进行实验,证实这种基于模糊属性选择策略的改进方法是可行的。一个具体的模糊处理函数对应着一种具体的模糊属性选择策略的实现方法,所以模糊处理函数的多样性就决定了模糊属性选择策略实现方法的多样性。应该指出的是,获取比本文所使用的两种模糊处理函数更为有效的函数,还需要一段过程。