论文部分内容阅读
随着计算机技术的飞速发展,数据挖掘的方法不断扩展。粗糙集理论和方法是一种能有效的分析和处理不一致、不精确、不完备等各种信息的数据分析工具。粗糙集决策分析方法因其不依赖于专家知识和经验,具有只依赖于本身数据的客观性,得到了统计学和其他学科的普遍认同。本文对数据挖掘中的粗糙集方法进行了深入的研究,重点分析了基于粗糙集的属性约简算法在数据挖掘规则提取阶段的应用。包括上(下)近似关系、知识的约简、核、不可区分关系、规则的提取。生存分析是研究生存现象和响应时间数据及其统计规律的一门学科。该学科在生物学、医学、保险学、可靠性工程学、人口学、社会学、经济学等方面都有重要应用。本文对一个实际的糖尿病医疗数据进行了Cox回归生存分析和粗糙集医疗数据辅助规则提取。论文主要特点是可以处理删失数据,删失是准确时间未被观察到的情况。研究对象是149位糖尿病人的数据,通过对各生存指标的统计,利用生存分析和粗糙集两大类方法,对糖尿病人的数据分别利用SPSS统计软件和MATLAB中的粗糙集模块分析,得出两种不同角度的结果,分析的结果更加全面。生存分析的方法中,通过建立半参数模型,使用SPSS软件中的Cox回归功能模块,利用生存时间函数,生存分析模型的参数和非参数估计作为理论基础,在风险函数与属性因子之间建立类似于广义线性模型的关联,直接考察研究因子对风险函数的影响效果。该方法可以在不对生存时间的具体分布进行假设的情况下评价因子的效果,大大简化了生存分析的求解过程。粗糙集方法中,通过将连续属性离散化,将生存数据划分为可以用粗糙集方法计算的不可区分关系。利用粗糙集的知识约简,以及决策表在知识表达上的应用,同时,通过对粗糙集数据分析系统的构成和基本算法的研究,列举出系统实现的程序,包括属性约简,核等。最后,通过实例来验证程序的正确性,使用MATLAB中粗糙集程序直接实现不可区分关系、属性约简、核等的求解。通过利用粗糙集规则提取,得到了判定糖尿病人的约简的辅助治疗结果,所得结果与医院实际的诊断的方案吻合度非常高。得出两大类方法的结果有重叠也有不同,实际验证了分析结果的正确性。