论文部分内容阅读
随着社会经济的发展与物质条件的不断充裕,国民生活方式愈发趋于不健康化。在社会老龄化与城市化不断加速的背景下,以冠心病为代表的心血管疾病近年来在中国的流行趋势明显,已成为居民死亡的首要原因。另一方面,信息技术和物理存储技术的不断发展,也使得医疗诊断的手段越发多样、过程越发复杂,由此积累了海量的医疗数据。如何有效地利用这些数据,发现其中有价值的信息,为疾病的预防与诊断提供参考,具有重要的研究意义。本文的具体研究成果如下:针对现有关联分类算法资源消耗大、规则剪枝难、分类模型复杂的缺陷,提出了一种基于分块挖掘和事先剪枝的关联分类算法改进方案ACCP。根据分类属性值的不同对分类规则前项进行分块挖掘,并对频繁项集挖掘过程和规则修剪过程进行了改进与优化。基于UCI数据集的实验结果表明,此算法改进方案相比传统CBA关联分类算法和C4.5决策树算法有着更好的分类性能,平均分类准确率分别提高了3.93和5.4个百分点,平均灵敏度分别提高了3.95和4.51个百分点,且在算法运行时间上明显优于传统CBA算法,取得了较好的应用效果。针对传统Relief系列算法无法过滤冗余特征的问题,提出了一种基于Relief F算法和互信息的特征选择算法——FSRMI算法。在原有Relief F算法基础上,放弃了通过设定特征权重阈值来剔除无效特征的方式,采用基于互信息的启发式特征约简方法。通过计算特征子集与类别属性的互信息进行特征子集序列前向搜索,并将其是否达到特征全集与类别属性的互信息量作为特征子集生成过程的终止条件。最后,对已生成的特征子集进行基于互信息特征选择的二次约简,通过计算信息度量MIFS去除特征子集中的冗余特征,达到了更好的降维效果。实验结果表明,FSRMI算法在UCI数据集Breast上的特征约简率达到了44.4%,且分类性能相对于特征全集有了进一步的改善。基于实际收集的冠心病数据集,对本文所提出的ACCP关联分类算法与FSRMI特征选择算法在冠心病诊断中的实际应用进行了性能验证。首先对数据集进行数据筛选、缺失值填补以及数据离散化等预处理操作,然后基于FSRMI特征选择算法得到包含有11个特征的特征子集。最后在处理好的冠心病数据集上开展了一系列的对比实验,证明了ACCP关联分类算法在冠心病诊断中的实用性和有效性。除此之外,还基于ACCP分类算法在FSRMI特征选择前后的数据集上分别开展了验证实验,证明了FSRMI特征选择算法可以有效降低特征集的冗余度,具有良好的应用效果。