分类问题中的新类识别与分类器更新方法研究

来源 :南开大学 | 被引量 : 0次 | 上传用户:dulcimerqin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多年来随着分类理论的深入研究,各种分类应用诸如光学字符识别、语音识别、文本及图像分类等也都在逐步开展,并取得了很多很好的成果。分类理论在这些问题上的成功应用,鼓舞人们把分类广泛地用于诸如客户资信评估、网络入侵检测、垃圾邮件检测等在线分类系统。随着分类理论的广泛应用,分类研究面临一些新的问题,其中较严重的一个就是“训练数据集与待分类数据集独立同分布”的假设在很多应用中得不到满足。在客户资信评估、网络入侵检测、垃圾邮件检测等应用中,很可能会随着系统的运行而不断出现新的类别。当新类别出现时,原有的分类系统便因为数据分布发生的显著变化而失效,由此带来的分类错误往往会导致很严重的损失。 当待分类数据中出现客观新类时,传统分类器无法应对。针对这个问题,本文提出了从待分类数据中识别新类,并在之后对分类器进行自动更新的自适应分类方法。依照这个思路,本文开展了三方面工作,并得出以下成果。 1)针对待分类数据中出现的客观新类,本文提出使用类别描述进行新类识别的方法,并分别给出基于边界和基于概率密度函数两种方式来实现,其中,边界方式使用支持向量数据描述来实现,而概率密度方式使用高斯混合模型来实现。实验结果表明识别准确率受数据分布和距离尺度选择的影响很大,两种方法在UCI数据集的4个数据集上的平均识别准确率分别是44.249%和38.358%。 2)对使用边界描述方式进行新类识别的实验结果进行分析发现,识别率过低的原因在于样本间的距离不能很好反映样本间的相似程度,针对该问题本文提出尺度变换的映射思想,引入尺度学习方法,从训练样本中学习适合于当前数据集的尺度,使得相似样本距离较近,而不相似样本距离较远。在UCI数据集上的实验结果表明,加入尺度学习后,基于边界的新类识别的平均准确率从44.249%提高至68.329%。 3)针对新类及其代表样本被识别出后如何更新现有分类器的问题,本文提出可继承数据挖掘的思想,根据两次相邻学习的相似性和知识变化的渐进性特点,提出可供分类器更新使用的中间计算,并基于此提出并实现了类别增量的决策树学习算法和高斯混合模型学习算法。实验表明,这两种方法同系统重构相比,要节省较多时间,适用于在线分类系统这种需要尽快更新分类器以适应不断出现新类的场合。更进一步说,该问题在人工智能领域也具有重大的理论意义,如果分类方法能够不受这个假设的制约,那么,分类系统就会具有自动学习、自动适应新类变化的能力,而这正是人工智能和机器学习的一个重要目标。而由此带来的便是分类能够在更广阔的应用环境中应用。
其他文献
随着数据获取方式的多样性,数据挖掘和机器学习使用的数据集规模越来越大。而随着时间的推移,在大规模数据集的基础上,新的数据也在不停的加入进来,同时,数据集中已有的记录
分布式并行计算可以提供相对廉价且强大的处理能力,在研究和应用领域都得到了广泛的关注。负载平衡是影响分布式并行计算性能的重要因素之一,负载平衡策略的效率直接关系到分
随着社会的进步、科技的发展,互联网早已深入到人们日常生活的方方面面,成为人们生活中不可或缺的一部分。但是目前互联网面临着诸如扩展性、地址空间、端到端高性能传输、实
传统基于角色的访问控制(RBAC)系统需要在业务逻辑代码中加入访问控制逻辑来实现访问控制的细粒度。这种实现方式会导致系统代码的分散和缠绕,而面向方面的程序设计(AOP)可以
本文首先概述了Web的产生及其发展历程,从而引出了网络检索问题,并分析了目前搜索引擎的工作原理及其研究现状。由于Web上海量的信息处于不断的变化中,通用搜索引擎己经很难
数字游戏是计算机行业中最有价值和发展潜力的领域之一,它同时有着非常高的技术要求。它集中体现了计算机科学在图形处理、网络通信、实时运算和人工智能等方面的最新成就,它的
软件测试是软件工程的一个重要阶段。随着软件工程的发展,软件设计规模的增大,软件测试的地位变得日益重要。测试用例的设计和编制是软件测试最重要的活动。测试用例是测试工
用户界面(UI)是用户直接与软件进行交互的部分,其舒适度和美观性备受用户关注和重视。传统开发和构造人机界面的方法存在一定局限性,它忽略了用户界面设计的交互性。现有用户界
随着VoIP技术的不断发展和成熟,各种形态的VoIP应用层出不穷,并以其低廉的价格吸引了众多的用户,对传统的PSTN语音业务产生了巨大的冲击。由于其业务实现的简单性和灵活性,很
Internet作为一个典型的复杂网络实例,对其宏观拓扑结构的特征分析及建模研究是目前研究的热点问题,受到学术界广泛关注。近年来人们在该领域的研究取得了长足的进展,尤其是在In