论文部分内容阅读
随着网络的普及和数据库技术的快速发展,信息量呈现出爆炸式增长。大量数据中潜藏着无数有价值的信息,如何挖掘利用这些信息成为当今数据挖掘领域研究热点。贝叶斯分类算法以其简捷高效特点成为其中佼佼者。贝叶斯分类算法是一种通过类的先验概率对目标数据进行预测的方法,朴素贝叶斯分类算法是应用最为广泛、综合效率较高的贝叶斯分类算法,但其最大的弊端是假设属性之间相互独立,而真实世界中,假设往往不成立。本文将频繁项集应用在朴素贝叶斯分类算法中,可以放松独立性假设,让分类更加准确。具体研究工作为:(1)关联信息方面:本文从候选项集的产生、属性之间的关联性分别对关联规则模型以及频繁项集与朴素贝叶斯相结合的算法进行改进。具体研究工作包括:基于哈希技术的Sampling改进算法(SamplingHT),提出了新的哈希函数并利用该技术对Sampling算法中频繁项集产生过程进行改进得到SamplingHT算法,通过大量对比实验显示,新算法提高了产生频繁项集的性能,有效地降低了对数据库的扫描次数,达到优化的目的。(2)分类信息方面:本文提出了基于频繁项集的贝叶斯分类改进算法WM-FISC, FISC是经典的频繁项集与贝叶斯分类算法相结合的方法,通过SamplingHT算法产生的具有属性关联的频繁项集来做分类算法中的训练集,以此来放松独立性假设,再通过M-估计和加权方法对FISC进行改进,进一步解决朴素贝叶斯分类算法中属性独立性的缺点。通过实验显示,WM-FISC算法的性能强于FISC算法,且好于一些其他贝叶斯分类算法。(3)实际应用方面:将本文提出的SamplingHT算法和WM-FISC算法应用在冠心病中医辅助诊疗系统中,成功地挖掘出中医诊疗数据库中所隐含的关联规则以及对病人病症的分类,在冠心病的诊疗过程中起到了有效的辅助作用。