基于邻居辅助策略的两阶段层次文本分类模型研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:pandengwei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的文本分类方法在类别数目较少时取得了很好的分类效果。然而,随着类别数目越来越大,如LookSmart、ODP等都有成千上万的类别,如果还利用扁平化方式组织这些类别,那么为一个文档正确的指定其目标类别的难度就变得非常大。所以,实际应用中通常将这些类别组织成层次结构。基于层次结构,学者们引入了层次文本分类方法。比较常用的层次文本分类方法有Big-bang分类方法和Top-down分类方法。由于Big-bang分类方法的时间开销和空间开销较大以及Top-down分类方法“阻滞”现象的不可避免性,传统的层次文本分类方法并不能很好的应用到大规模层次文本分类中。而新近提出的两阶段层次文本分类模型(THTC模型)是一种解决大规模层次文本分类问题的有效方法。相对于传统层次文本分类方法,THTC模型在分类性能和时间效率上都有了显著提高,但是该模型在分类过程中仍然存在很多不足。因此,本文在THTC模型的基础上提出了基于邻居辅助策略的两阶段层次文本分类模型(THTC-NA模型)。本文的主要工作包括以下三个方面:(1)系统的研究了层次文本分类中的方法和应用,并在THTC模型的基础上提出了THTC-NA模型。THTC-NA模型包含搜索和分类两个阶段,搜索阶段通过引入基于类别的搜索策略进行候选搜索,对原类别层次结构进行虚拟剪枝,以减小数据规模。并采用Top-down方法将候选类别组织成层次结构,这样可以保持该层次结构在原类别层次结构中的位置不变,从而可以不用对每一个待分类文档都训练一个特殊的分类器。(2)分类阶段利用类别层次结构中各个节点的邻居节点的分类结果辅助对该节点的分类判决,并针对邻居节点可靠性未知的问题引入了置信度。同时,以层次路径做全局搜索,避免了由于单一节点误判可能导致局部最优陷阱。在数据集Newsgroups-18828上的实验表明,邻居节点的分类结果对指定待分类文档的目标类别有很好的辅助作用。(3)针对THTC模型未能充分利用搜索阶段的信息的问题,THTC-NA模型提出一种新的分类判决方法。该方法将搜索阶段的结果和分类阶段的结果都融入到分类模型中,以加权累加的结果作为最后的分类判决。实验结果表明:融合两阶段的结果判定待分类文档的目标类别的方法在分类准确率和宏平均F1值上都要优于只使用分类阶段的结果判定文档的目标类别的方法。
其他文献
基于视频图像序列的运动目标检测与跟踪是计算机视觉领域的一个重要研究课题。本文的主要研究内容为基于光流的运动目标检测算法。光流场携带了有关物体运动和三维结构的丰富
随着计算机网络通信、云计算、分布式处理以及多媒体等技术的飞速发展,越来越多的用户依赖网络传输和处理信息,而数字图像信息以其生动直观的特点被广泛使用,但是图像内容信
中医药语言系统(Traditional Chinese Medical Language System TCMLS)是世界上规模最大,数据最全的领域本体之一,在中医药科研和应用的多个领域发挥着重要的推动作用。但是,
用户对Deep Web站点的访问主要是通过其在Web页面中提供的具有特定查询能力的接口来获取所需要的结果。为了帮助用户简单高效的查找Deep Web信息,就必须提供统一的查询接口,
运动目标的检测与跟踪是机器视觉领域的核心课题之一,目前被广泛应用在视频编码、智能交通、监控、图像检测等众多领域中。本文对基于时域空域信息相结合的运动目标检测方法
随着微电子技术、计算机技术和无线通信技术的飞速发展和日益成熟,无线传感器网络(WSNs)的应用越来越广泛,逐渐被应用于军事、环境监测、交通控制等多个领域。但是数据传输延
在计算机图形学领域,大规模自然景观的建模和渲染是一个重要的研究课题。大规模草丛场景作为自然场景的重要组成部分,其建模和实时渲染技术也一直是众多学者的研究热点。但是
随着计算机技术与信息化技术的发展,信息化与现代化在社会各行各业都得到了极大的普及与覆盖,而这些信息化的普及给各行各业带了一个最大的问题就是数据呈指数级增长。为了充分
网络化已经成为嵌入式系统发展的一大趋势,而监控技术经过两代的发展,已经进化到了网络视频监控阶段,本文结合无线网络技术和嵌入式系统的优势和特点,提出了一种无线视频监控
随着计算机网络技术的不断发展,分布式应用规模的不断扩展,对分布式应用系统的可靠性、可扩展性和可维护性提出了越来越高的要求。数据访问问题是影响分布式系统性能的一个关
学位