论文部分内容阅读
分类挖掘作为数据挖掘的一个重要分支,其实质在于利用已有数据分析建模,对未知数据进行预测。多尺度分类挖掘是典型的跨学科课题,旨在将多尺度科学与分类技术相结合,多方位对数据进行分析,得到不同层次分类模型,学习更全面的信息。目前,多尺度分类研究已取得一定成果,可有效提高分类性能,但多局限于图像、空间数据。研究表明,对一般数据集进行多尺度挖掘探索也已初见成效,如多尺度聚类、多尺度关联规则,但在分类领域还有待完善。针对上述问题,尝试进行普适性多尺度分类挖掘方法的研究,不仅扩大多尺度适用范围,还可提高分类效率。论文从空间数据估计角度出发,结合层次理论和尺度特性,基于概率密度估计离散化方法,研究一般数据集下多尺度分类挖掘的转换方法。针对数据的多尺度特性进行分类挖掘,以非局部均值和双立方插值为理论基础,利用Q统计和不一致度量进行操作,提出多尺度分类尺度上推算法和多尺度分类尺度下推算法。论文的主要工作包括以下几方面:(1)研究多尺度分类理论基础。首先,针对分类挖掘的特点,结合离散化方法,依据尺度特性,参照等价划分模型,选取待划分的尺度,确定尺度层数;其次,分析范围尺度和粒度尺度,依据表征尺度的属性取值计算划分点得分,构造多尺度数据集;再次,将三支决策与多尺度相结合,利用多尺度决策表选取基准尺度;最后,给出多尺度分类的实质和体系架构,为后续多尺度分类算法研究提供知识与方法。(2)提出多尺度分类挖掘算法。从空间数据估计和尺度转换角度入手,对多尺度分类挖掘进行研究,给出多尺度分类尺度上推算法UAMSC(Upscaling Algorithm of Multi-Scale Classification)和多尺度分类尺度下推算法DAMSC(Downscaling Algorithm of Multi-Scale Classification)。在尺度上推中,基于多尺度自相似性,平滑细节信息,采用非局部均值加权滤波思想,利用Q统计实现从小尺度数据集到大尺度数据集的知识推导。在尺度下推中,基于不一致度量,利用双立方插值思想,增加细节信息,对挖掘的知识进行具体化,加权求取目标尺度信息,实现从大尺度数据集到小尺度数据集的知识推导。(3)实验验证多尺度分类挖掘框架和算法。采用4个UCI数据集和1个真实数据集进行实验,验证多尺度分类及UAMSC和DAMSC算法的可行性和有效性。结果表明:UAMSC和DAMSC算法可行有效,具有较高的准确度和较低的时间复杂度,不仅在效率上优于LIBSVM等基准算法,且在性能上比MSCSUA、MSCSDA有更好的表现。