基于群集智能的文本分类研究

来源 :中山大学 | 被引量 : 0次 | 上传用户:qiuzhizhedetiantang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
面对海量、异构、动态的文本信息,对文本进行自动分类就具有重要的意义。文本分类是基于内容的自动信息管理的核心技术,在文本分类的基础上可以更好的进行信息检索和信息个性化服务。文本分类的发展与模式识别的发展密切相关。一方面,模式识别新方法的提出推动了文本分类的迅速发展;另一方面,文本分类给模式识别方法提出了很多富有挑战性的课题。特别是文本分类具有的类目多、样本数目多、噪音多、各类别样本数目不均衡等特点,使得各模式识别算法在应用于文本分类时存在许多缺点。近年来,逐步发展起来的群集智能(SwarmIntelligence)理论和方法为文本分类提供了一种新的智能化手段。群集智能是指具有简单智能的个体通过合作能够表现出复杂的群体智能行为。本文将群集智能中发展较为成熟的蚁群智能算法和粒子群智能算法尝试性地引入到文本分类领域。主要工作和结论如下:①构建了文本预处理模型,该模型是文本分类模型的基础。使用复旦大学提供的中文文本数据集(文本集)对该模型进行验证,得到文本集的向量空间矩阵。该向量空间矩阵将用于分类模型的验证。②分别使用文本集的向量空间矩阵,对基于支持向量机(Support Vector Machine,SVM)、K最近邻算法(K-Nearest Neighbor,KNN)和朴素贝叶斯(Na(I)ve Bayes,NB)的经典分类模型进行验证和比较,结果表明:在该数据集上,特征选择方法使用信息增益法得到的分类效果最好;相比较而言,上述三种分类模型中SVM分类模型的分类效果最好,KNN分类模型的效果其次,NB分类模型的效果最差。该验证结果将作为评价本文构建的文本分类模型的基准数据。③构造了基于ACO的文本分类模型(Text ACO-Miner),在文本集的向量空间矩阵上进行测试和比较,结果表明:Text ACO-Miner文本分类模型能够较好地应用于文本分类。④构建了基于PSO的文本分类模型(Text PSO-Miner),在文本集的向量空间矩阵上进行测试和比较,结果表明:Text PSO-Miner文本分类模型能够更好地应用于文本分类。⑤利用分类性能评价指标比较实验结果,结果表明:上述五种分类模型中分类效果最好的是本研究构造的Text PSO-Miner文本分类模型;但是本研究构建的Text ACO-Miner文本分类模型的分类效果只比基于NB的经典分类模型好。
其他文献
[目的 /意义]为体现对毕业生的人文关怀,加深图书馆与毕业生的情感,提升图书馆服务品质,暨南大学图书馆通过数据挖掘与分析技术,利用数据平台为毕业生们打造个性化、实时化、
企业竞争力研究一直是热点问题,包括企业竞争力的定义、企业竞争力的评价标准,以及如何提高企业竞争力等,这些问题是环环相扣,不断推进与发展的。在所有的研究当中,制造业企业竞争
学位
[目的 /意义]分析各学科领域文献使用情况,可为图书馆开展信息资源采访工作和针对人才、机构等方面的科学评价工作提供数据支撑。[方法 /过程]以我国大陆地区主办的751种人文
门户网站是互联网信息传播水平的集中体现,其发展状况与网络信息传播技术的发展息息相关。本研究的目的在于认识和了解目前我国门户网站产业作为一个新兴的产业形态的特点和发
学位
笔者通过搜集到的清人叶梦珠《阅世篇》、和嘉庆、乾隆、同治年间的《松江府志》和《上海县志》,范文若任职所在地的山东《续修汶上县志》、浙江《秀水县志》、湖北《光化县志
学位
[目的 /意义]梳理2014年西方信息科学的发展,为信息科学领域研究人员把控研究全局和选择研究方向提供参考。[方法/过程]以JASIST 2014年全年载文为基础数据,建立信息科学研究
在中国境内旅游,不管去哪个地方,只要你参观的是人文景观,首先看到的肯定是一对石狮子。狮子生长于非洲、南美等地,中国辽阔的疆域上,从来不出产这种重要的猫科动物,但中国大
图书馆馆藏资源的种类和数量日益增多,资源服务系统之间的互不兼容,给用户的使用带来了极大的不便。图书馆必须有效整合这些资源,为用户打造一体化的资源体系和一站式的资源
学位
目前,网络舆情对于社会公共事件的发展有着重要的影响,其中网民群体是推动网络舆情演变的行为主体,而网民群体的负面情感是网络舆情的重要特征之一,如果不加以正确引导,极有
我与孙恒、许多、王德志等“新工人艺术团”的朋友认识已有近十年了,在这十年中他们做了不少事情,出唱片,演出,还在排话剧,拍电影,自2012年开始的“打工春晚”也引起了越来越