论文部分内容阅读
随着信息技术的飞速发展,人们已经累积了海量的数据,并且数据量仍在持续地呈指数增长趋势快速膨胀。为有效开发和利用这些数据,支持社会、经济、生活所需,以数据挖掘为代表的商务智能技术得到了广泛的应用。分类已经成为数据挖掘中应用最为普遍的方法。随着商务智能在管理中的应用普及,面向海量、高维等复杂数据的高性能分类方法,已成为数据挖掘、知识发现领域中的热点及难点问题。本文针对数据挖掘中的复杂数据分类问题,对基于关联分析和子空间划分的分类方法展开了进一步的研究。第一,针对商务数据规模普遍较大的特征,提出了一个基于关联分析的关联分类方法。首先,定义了一种新的分类规则度量标准——典型性(Typicality),该标准综合考虑了规则的覆盖度及置信度,有效避免了传统支持度-置信度度量框架下无效规则的产生。其次,提出了一个三阶段的规则剪枝策略,在保持分类准确率的前提下能够有效缩小分类器的规模。UCI数据集上的实验结果表明,本文提出的关联分类方法在显著降低分类器复杂性的同时,也获得了更好的分类准确率。第二,关联分类方法能够很好地处理大部分分类问题,然而在处理具有高维属性特征的数据库时具有一定的局限性。针对商务数据中的高维数据挖掘问题,提出了一个基于核Fisher鉴别分析的子空间分类方法。该算法结合了频繁模式挖掘和核Fisher特征抽取技术来寻找所有子空间,利用分治策略将大样本的分类问题转换成一系列小样本的子空间分类问题,再通过特征抽取技术进行降维,从而大大降低了问题的复杂性。实验结果显表明,本文提出的子空间分类方法能够有效处理高维、大样本数据的分类问题,相较于其他分类方法可获得更好的分类准确率。第三,本文将所提出的关联分类方法应用到个性化推荐系统中,构建了基于分类的个性化推荐系统理论模型。