论文部分内容阅读
面对海量、异构、动态的文本信息,对文本进行自动分类就具有重要的意义。文本分类是基于内容的自动信息管理的核心技术,在文本分类的基础上可以更好的进行信息检索和信息个性化服务。文本分类的发展与模式识别的发展密切相关。一方面,模式识别新方法的提出推动了文本分类的迅速发展;另一方面,文本分类给模式识别方法提出了很多富有挑战性的课题。特别是文本分类具有的类目多、样本数目多、噪音多、各类别样本数目不均衡等特点,使得各模式识别算法在应用于文本分类时存在许多缺点。近年来,逐步发展起来的群集智能(SwarmIntelligence)理论和方法为文本分类提供了一种新的智能化手段。群集智能是指具有简单智能的个体通过合作能够表现出复杂的群体智能行为。本文将群集智能中发展较为成熟的蚁群智能算法和粒子群智能算法尝试性地引入到文本分类领域。主要工作和结论如下:①构建了文本预处理模型,该模型是文本分类模型的基础。使用复旦大学提供的中文文本数据集(文本集)对该模型进行验证,得到文本集的向量空间矩阵。该向量空间矩阵将用于分类模型的验证。②分别使用文本集的向量空间矩阵,对基于支持向量机(Support Vector Machine,SVM)、K最近邻算法(K-Nearest Neighbor,KNN)和朴素贝叶斯(Na(I)ve Bayes,NB)的经典分类模型进行验证和比较,结果表明:在该数据集上,特征选择方法使用信息增益法得到的分类效果最好;相比较而言,上述三种分类模型中SVM分类模型的分类效果最好,KNN分类模型的效果其次,NB分类模型的效果最差。该验证结果将作为评价本文构建的文本分类模型的基准数据。③构造了基于ACO的文本分类模型(Text ACO-Miner),在文本集的向量空间矩阵上进行测试和比较,结果表明:Text ACO-Miner文本分类模型能够较好地应用于文本分类。④构建了基于PSO的文本分类模型(Text PSO-Miner),在文本集的向量空间矩阵上进行测试和比较,结果表明:Text PSO-Miner文本分类模型能够更好地应用于文本分类。⑤利用分类性能评价指标比较实验结果,结果表明:上述五种分类模型中分类效果最好的是本研究构造的Text PSO-Miner文本分类模型;但是本研究构建的Text ACO-Miner文本分类模型的分类效果只比基于NB的经典分类模型好。