论文部分内容阅读
随着互联网的迅速普及和发展、在线信息资源的日益增多,人们已经从信息资源匮乏的时代过渡到了信息资源极为丰富的数字化时代。面对海量的在线信息资源,人们很难迅速有效的找到真正所需要的信息。因此,如何合理地和有效地组织和管理这些信息,已经逐渐成为信息处理领域中一个十分重要的研究课题。传统地,我们是依靠人工的方法对网页进行分类的,即专业人员在分析网页的内容后,将它分到一个或若干个比较合适的类别中。很明显,随着网页信息容量的快速增长,仍然依靠人工的方式来进行网页分类将会耗费大量的人力和物力,这是非常不现实的。由于文本分类是组织和管理信息的有力手段,它可以在较大程度上解决目前网上信息杂乱无章的现象,使得用户更容易更准确地定位所需要的信息。因此,对文本的分类是必要的,也是必需的。这就使得对文本自动分类的研究成为了一个日益重要的研究领域,并且它还逐步与搜索引擎、信息过滤等技术相结合,成为解决人们网上信息获取的重要手段。本文首先介绍了中文文本分类的关键技术。文本预处理是影响文本分类精度的关键因素之一。为此,在这一部分我们首先介绍了中文文本的预处理技术,其中包括中文分词技术和停用词处理;然后介绍了文本的表示方法,即向量空间模型;最后,对各种特征选择算法进行了分析对比。然后,本文针对文本分类的核心部分——分类算法,进行研究。我们选择近几年发展起来的新型的通用机器学习方法——支持向量机,来进行分类。在这部分,首先给出了支持向量机的基本原理,包括线性可分、非线性可分、支持向量机的实现思想和常用的核函数。此外,给出了支持向量机的训练算法,并分析了支持向量机的多类分类问题。本文的创新点主要体现在:提出了基于离散粒子群优化算法和决策树的SVM多类分类方法。传统DAG-SVM和DT-SVM方法的优点是决策速度比“一对一”和“一对多”快,提高了训练和分类的效率。但共同的缺点是只要类别数固定,其决策树结构就是固定的,不能根据具体的分类问题作出自适应的调整。各个两分类SVM在决策树中的位置不同,其分类性能往往也会不同,越接近根节点的位置出现错分,其“误差积累”现象越严重。传统的DAG-SVM和DT-SVM方法均没有考虑如何最优地安排各个两分类SVM的位置问题,即没有考虑每个决策节点上的决策优化问题。因此,我们提出了基于离散粒子群优化算法和决策树的SVM多类分类方法。引入离散PSO优化,以类间分类间隔最大为准则,在每个决策节点上将多类训练样本划分为两类进行训练,使两个子类间的可分性尽可能强,以构造合理的树结构,最终生成最优或近优的决策树。通过实验表明,改进的分类算法提高了文本的分类精度。