层次化文本分类方法的研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:ning012
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络信息的迅猛发展,信息处理已经成为人们获取有用信息不可缺少的工具。九十年代以来,Internet以惊人的速度发展起来,它容纳了海量的各种类型的原始信息,包括文本信息、声音信息、图像信息等等。如何在浩若烟海而又纷繁芜杂的文本中掌握最有效的信息始终是信息处理的一大目标。基于人工智能技术的文本分类系统能依据文本的语义将大量的文本自动分门别类,从而更好地帮助人们把握文本信息。文本自动分类系统是信息处理的重要研究方向,它是指在给定的分类体系下,根据文本的内容自动判别文本类别的过程。近年来,文本分类技术已经逐渐与搜索引擎、信息推送、信息过滤等信息处理技术相结合,有效地提高了信息服务的质量。文本自动分类技术(Text Automatic Classification)基本任务就是对一篇文档,根据其内容,从预先定义好的标记集中找出一个或者多个最适合于该文档的标记。文本自动分类技术从开始出现到现在,经历了从基于规则到基于统计分类,再到规则和统计相结合的一个过程。本文的研究内容主要有以下几个方面:首先,对文本分类的概念、方法、类别及应用等方面进行了一个概括地介绍,根据对国内外研究的调研,给出了一个简单的文本分类原型系统的设计与实现。其次,根据近几年文本分类方面研究的缺陷与困难,创新性的提出了一种自底向上的学习与自顶向下的分类相结合的层次化文本分类模型,在此基础上,将全部类别组织成一个层次关系的树形结构,把分类任务分成更小的子问题。在层次分类方法中,先定义好的主题类别具有层次关系,主题类别层次结构中的每个内节点处有一个分类器,系统根据各个节点处的样本子集合训练出每一个分类器,然后通过这些分类器把大量待分类的文本分到层次结构的主题类别中。也就是把各类按照一定的层次关系组织成树状结构,并将一个类中的所有训练文档合并为一个类文档,在提取各类模型时只在同层同一结点下的类文档之间进行比较;而对文档进行自动分类时,首先从根结点开始找到对应的大类,然后递归往下直到找到对应的叶子子类。最后,本文通过实验将该方法同现今比较流行的分类方法作了分析和比较,实验和实际系统表明,在取得与传统方法相近似的分类精度的前提下,本方法可极大的提高分类的效率。
其他文献
信息通信技术(InformationCommunicationsTechnology,ICT)发展的大潮加速了智能网联汽车的发展。无人驾驶、先进辅助驾驶等智能化技术在给用户带来丰富功能和使用便捷性的同时
在一些应用系统的设计开发中,常常涉及有关接口的设计开发。传统的接口技术和处理方法存在着许多问题,如接口不灵活,改装不方便,不能做到即插即用,接口的可扩展性差,数据传输速度慢
随着城市经济快速发展和人口迅速增长,城市的交通问题也变得越来越突出。与其他交通方式相比,公共交通具有污染小、占地面积少和运输效率高等优点,是解决城市交通问题和实现可持
世界信息化数字化的浪潮中,多媒体技术和通信技术已成为计算机产业关注的焦点。流媒体(Streaming Media)是一种以音视频数据流的方式在网络上传递多媒体信息的技术。但是,由
领域知识库是一个复杂的系统,涉及到多领域的知识。由于每个领域都有其自身的特点,并且学科间也存在交叉和重叠,所以领域知识的共享、重用是非常必要的。目前基于这些知识很多学
伴随电子与通信技术的发展,无线传感器得到了广泛应用。基于微惯性传感器的人体行为识别作为人工智能的一个新兴分支,日益受到人们的广泛关注与重视。相比基于视觉的人体行为
随着我国改革开放和社会主义市场经济建设的不断深入,我国在各个方面的改革进入了一个全新的阶段,其中,社会保障制度的改革尤为突出。在社会保障制度不断摸索前进的过程中,对其进
随着计算机的发展和Internet的普及应用,各种各样的网络犯罪层出不穷。由于网络环境的特殊性,与传统的取证方法相比,网络环境下的计算机取证面临着涉案人员的身份难以确定、
面向服务的架构(Service-Oriented Architecture,SOA,也叫面向服务的体系结构)是指为了解决业务集成的需要,通过连接能完成特定任务的独立功能实体实现的一种软件系统架构。SOA
随着Web应用系统广泛应用于教育、商业、工业等领域,Web系统变得越来越复杂,一个项目的失败将可能导致Web危机的发生。在Web工程过程中,基于Web系统的测试任务是一项重要而富有