论文部分内容阅读
随着信息技术的不断发展,特别是Internet应用的普及,网上信息成指数级增长,如何自动处理这些海量的信息,以有效地保留大的文本集合就成为了目前重要的研究课题。对文本进行有效管理的方法之一,就是将它们进行系统地分类,即文本自动分类问题。文本自动分类是一项重要的智能信息处理技术,是文本检索技术的基础,在新闻自动分类、电子会议、电子邮件自动分类和信息过滤等方面极具应用价值。 本文详细分析了中文文本分类的模型构造及对应的分类算法,对常用的文本分类算法进行了评价(主要有SVM方法、Boosting方法、Na(?)ve Bayes方法、KNN法、基于向量空间模型方法等)。文本分类算法是一种监督式的学习方法,在对文本进行自动分类时,需要解决以下几个问题,如:获取训练文档集、建立文档表示模型、文档属性选择、选择分类算法和性能评估模型等。 本文对中文文本分类的分词技术进行了着重讨论。对于基于信息过滤的自动分类问题,使用字典分词并不是一个必须的过程,因而本文提出了基于2元语法短语标引的分词方法,它将设立切分标志法与基于词频统计的方法相结合,可以识别基于词典方法处理不了的词汇,如:人名、地名、专业术语等。由于这种方法获取信息简单,用此进行分类可使文档分类系统摆脱对复杂切词处理程序和庞大词典的依赖,因此可以替代基于字典的机械分词方法。 在第三章分词的基础之上,结合KNN,Na(?)ve Bayes和简单向量距离分类算法,建立了一个基于分词的自动分类系统。它运用基于2元语法短语标引的自动分词方法来抽取向量空间模型需要的特征词来表征文档的内容,并表示成向量。其中:分词模块由分词预处理与分词两部分所组成;然后,对向量的维数加以缩减,以降低系统的复杂度,同时提高分类的精度;最后结合新闻语料库(文章采用网上下载的新闻语料库500篇,所有的新闻稿都由领域专家事先进行了分类,按照中图法分成政治、经济、军事等共十大类)进行验证。实验结果表明了分词算法的有效性。