论文部分内容阅读
多年来随着分类理论的深入研究,各种分类应用诸如光学字符识别、语音识别、文本及图像分类等也都在逐步开展,并取得了很多很好的成果。分类理论在这些问题上的成功应用,鼓舞人们把分类广泛地用于诸如客户资信评估、网络入侵检测、垃圾邮件检测等在线分类系统。随着分类理论的广泛应用,分类研究面临一些新的问题,其中较严重的一个就是“训练数据集与待分类数据集独立同分布”的假设在很多应用中得不到满足。在客户资信评估、网络入侵检测、垃圾邮件检测等应用中,很可能会随着系统的运行而不断出现新的类别。当新类别出现时,原有的分类系统便因为数据分布发生的显著变化而失效,由此带来的分类错误往往会导致很严重的损失。
当待分类数据中出现客观新类时,传统分类器无法应对。针对这个问题,本文提出了从待分类数据中识别新类,并在之后对分类器进行自动更新的自适应分类方法。依照这个思路,本文开展了三方面工作,并得出以下成果。
1)针对待分类数据中出现的客观新类,本文提出使用类别描述进行新类识别的方法,并分别给出基于边界和基于概率密度函数两种方式来实现,其中,边界方式使用支持向量数据描述来实现,而概率密度方式使用高斯混合模型来实现。实验结果表明识别准确率受数据分布和距离尺度选择的影响很大,两种方法在UCI数据集的4个数据集上的平均识别准确率分别是44.249%和38.358%。
2)对使用边界描述方式进行新类识别的实验结果进行分析发现,识别率过低的原因在于样本间的距离不能很好反映样本间的相似程度,针对该问题本文提出尺度变换的映射思想,引入尺度学习方法,从训练样本中学习适合于当前数据集的尺度,使得相似样本距离较近,而不相似样本距离较远。在UCI数据集上的实验结果表明,加入尺度学习后,基于边界的新类识别的平均准确率从44.249%提高至68.329%。
3)针对新类及其代表样本被识别出后如何更新现有分类器的问题,本文提出可继承数据挖掘的思想,根据两次相邻学习的相似性和知识变化的渐进性特点,提出可供分类器更新使用的中间计算,并基于此提出并实现了类别增量的决策树学习算法和高斯混合模型学习算法。实验表明,这两种方法同系统重构相比,要节省较多时间,适用于在线分类系统这种需要尽快更新分类器以适应不断出现新类的场合。更进一步说,该问题在人工智能领域也具有重大的理论意义,如果分类方法能够不受这个假设的制约,那么,分类系统就会具有自动学习、自动适应新类变化的能力,而这正是人工智能和机器学习的一个重要目标。而由此带来的便是分类能够在更广阔的应用环境中应用。