论文部分内容阅读
互联网上丰富、广泛的信息已成为人们最重要的信息来源之一。如何帮助用户快速、准确地查找网上有用信息,是一个非常有意义的问题,具有很高的实用价值,己经成为近年来的研究热点。作者研究的目的,一方面是利用模糊数据挖掘技术提高检索的效率和分类的准确性;另一方面希望通过对文本分类问题的研究,认真分析一些算法,并对算法的改进等方面做一些有意义的探索。本文的研究工作主要包括如下两个方面:一是对中文文本自动分类的理论进行研究分析。文本自动分类分为自动聚类和自动归类,本文仅研究自动归类。而文本的自动归类包括训练过程和分类过程,训练过程中最重要的是训练算法的选取和训练文本的寻找,本文中采用的算法是模糊算法;分类过程是在训练过程中产生的分类模型基础上进行的。本文采用二级分类的模式,为了提高分类的速度,在第一级采用基于字的分类技术,速度较快,但分类正确率略低,在第二级采用基于词的分类技术,正确率较高,但分类速度稍慢。通过两级分类的设计,即保证了速度,又提高了分类正确率。 二是对分类算法进行了一些有意义的探索。本人在学习研究前人工作的基础之上,选择模糊算法进行了重点研究,对该算法有了更深刻的认识,并对算法做了一定的调整,使它更适应文本自动分类的要求。