论文部分内容阅读
本论文的研究内容集中在Rough集理论以及Rough分析在数据挖掘领域中的若干应用。Rough集理论是一种新型的处理不确定性知识的数学工具,围绕着数据挖掘领域存在的问题,本文利用Rough集理论与Rough分析工具,提出若干解决方案,同时在具体处理问题过程中引入了信息理论、因子分析等方法,与Rough分析结合使用,讨论了Rough集技术在知识发现、关联规则挖掘、模式分类以及数据清洗等问题中的应用。论文对数据挖掘以及Rough集理论进行了基本概述,完成的主要工作包括: 1.针对海量数据处理起来极为耗时,现有算法拓展性较差的问题,基于Rough集理论中的集合正域概念以及由此定义的属性重要性概念,提出一种大型数据表分解算法,现有的规则归纳算法可直接在分解得到的树型结构上应用,将大大降低知识发现的时间,并从信息理论的角度利用信息熵概念对该分解结构进行了验证,分析了这种分解的实用性及合理性,揭示了这种分解结构在提高计算速度的同时不会损失信息量。 2.针对关联规则挖掘过程中多次搜索数据表的问题,将Rough分析的等效类概念引入到关联规则挖掘中,针对单维布尔关联规则问题提出一种挖掘算法,同时针对单一的最小支持度阈值的缺点,提出使用多个最小支持度阈值来进行频繁项集挖掘,可使得结果规则集合更加精练,包含更多的有意义规则。利用兴趣度对规则进行评价是发掘有意义规则的重要方式,文中从主观方面给出一种兴趣度评价方式以帮助用户发现更需要的规则。 3.提出一种属性选择和属性消减方法,引入因子分析技术对条件属性进行分组,每个属性类内部的条件属性与相应的因子线性相关,所有因子是目标概念的线性组合,根据属性类或属性是否与相对应的目标概念或因子强相关,引入信息熵评价方式对之进行选择,选择出与目标概念相关的属性,剔除无关的属性。 4.将属性选择方法与Rough分析相结合,利用Rough分析可以剔除属性集合中冗余属性并进行规则归纳的能力,提出一种基于Rough分析的分类器建模算法。针对在对未知类别的对象进行预测时会遇到的多规则匹配与无规则匹配问题,定义了部分匹配函数和灵活匹配函数,根据计算得到的函数值决定未知类别对象的归属。 5.数据预处理是数据挖掘之前的必要准备步骤,针对数据预处理问题中的缺失数据与重复数据的挖掘问题提出两种算法,首先针对缺失数据问题,浙江大学博士学位论文利用Rough集理论通过对己知数据进行预测实现对缺失数据的填补,达到了一定的预测精度;然后针对重复数据问题,利用数据表分解技术以及快速排序方法实现重复数据的发现,并降低了重复数据的发现时间。最后,对全文进行了概括性总结,并指出了有待进一步研究和完善的问