论文部分内容阅读
近年来,随着医院开始重视医疗信息化,以及国家对全民医保的重视和投入,来医院就诊的病人逐渐增加,产生的医疗数据越来越多。此外,由于医院购置了各种大型的高科技医疗设施,当广泛的将其投入使用时也会产生海量的医疗数据。针对海量的医疗数据,如何把数据中潜在的、有价值的信息挖掘出来,如何通过数据挖掘的方法了解某种疾病发生的危险性因素,提前预防或提前就诊来降低发病率已经成为一个问题。目前,国内外的研究者针对医疗数据挖掘的研究已经取得了一些进展,但是目前的研究主要集中在对随机森林、神经网络、支持向量机等传统分类算法的改进及使用上,虽然分类准确度较高,但是并不能发现一些影响疾病发生的特征。而关联分类算法可以挖掘出和某种疾病相关的特征,它是数据挖掘领域中主要的研究课题之一。专家系统对医学应用中提取可以提供结果解释的if-then规则很感兴趣。为了有效地从数据中挖掘知识,提出了各种规则归纳算法,它们可以结合分类方法,形成以规则为基础的分类算法。然而,大多数以规则为基础的分类算法不能直接处理数值型数据。而离散化数据预处理可以将数值型数据转变成分类格式。但是现有的离散化算法没有考虑到数据集中数值变量的分布,这可能会降低以规则为基础的分类器的性能。针对现有离散化算法不能保持原始数据的分布这一问题,本文提出了一种基于高斯混合模型的离散化算法(Discretization Algorithm based on Gaussian Mixture Mode,DAGMM),该算法通过考虑数值变量的分布以保留原始数据的最频繁模式。DAGMM算法的有效性是使用四个公开可用的医疗数据集进行验证的。根据实验结果,在产生的规则数和关联分类算法的分类准确度方面,DAGMM算法优于其它六个静态离散化方法。因此,在临床专家系统中运用DAGMM算法,可以提高以规则为基础的分类器的性能。由于许多学者利用关联分类技术来准确地帮助医师预测乳腺癌疾病,并且应用关联规则可以加强分类过程。所以接下来将DAGMM算法和常见的关联分类算法结合,用于对乳腺癌疾病的分类和预测。然而,大多数关联分类算法都受到规则评估过程中使用的估计方法以及属性级别使用的优先级技术的影响。在本文中,提出了一个基于统计调和平均值的特征加权关联分类算法(Feature Weight Association Classification algorithm based on based on statistical harmonic mean,FWAC)。通过统计测量技术进行剪枝,生成更准确的关联规则,以提高关联分类器的准确度。将FWAC与五个著名的关联分类算法在UCI机器学习数据库中的两个乳腺癌数据集上进行比较。实验结果显示,在大多数情况下,FWAC在本案例研究中优于其他关联分类算法。此外,FWAC生成的规则更准确。本文的研究成果对于乳腺癌的预防和诊断具有很好的作用。