论文部分内容阅读
随着网络信息的迅猛发展,信息处理已经成为人们获取有用信息不可缺少的工具。九十年代以来,Internet以惊人的速度发展起来,它容纳了海量的各种类型的原始信息,包括文本信息、声音信息、图像信息等等。如何在浩若烟海而又纷繁芜杂的文本中掌握最有效的信息始终是信息处理的一大目标。基于人工智能技术的文本分类系统能依据文本的语义将大量的文本自动分门别类,从而更好地帮助人们把握文本信息。文本自动分类系统是信息处理的重要研究方向,它是指在给定的分类体系下,根据文本的内容自动判别文本类别的过程。近年来,文本分类技术已经逐渐与搜索引擎、信息推送、信息过滤等信息处理技术相结合,有效地提高了信息服务的质量。文本自动分类技术(Text Automatic Classification)基本任务就是对一篇文档,根据其内容,从预先定义好的标记集中找出一个或者多个最适合于该文档的标记。文本自动分类技术从开始出现到现在,经历了从基于规则到基于统计分类,再到规则和统计相结合的一个过程。本文的研究内容主要有以下几个方面:首先,对文本分类的概念、方法、类别及应用等方面进行了一个概括地介绍,根据对国内外研究的调研,给出了一个简单的文本分类原型系统的设计与实现。其次,根据近几年文本分类方面研究的缺陷与困难,创新性的提出了一种自底向上的学习与自顶向下的分类相结合的层次化文本分类模型,在此基础上,将全部类别组织成一个层次关系的树形结构,把分类任务分成更小的子问题。在层次分类方法中,先定义好的主题类别具有层次关系,主题类别层次结构中的每个内节点处有一个分类器,系统根据各个节点处的样本子集合训练出每一个分类器,然后通过这些分类器把大量待分类的文本分到层次结构的主题类别中。也就是把各类按照一定的层次关系组织成树状结构,并将一个类中的所有训练文档合并为一个类文档,在提取各类模型时只在同层同一结点下的类文档之间进行比较;而对文档进行自动分类时,首先从根结点开始找到对应的大类,然后递归往下直到找到对应的叶子子类。最后,本文通过实验将该方法同现今比较流行的分类方法作了分析和比较,实验和实际系统表明,在取得与传统方法相近似的分类精度的前提下,本方法可极大的提高分类的效率。