基于萤火虫算法的文本聚类研究

来源 :西南大学 | 被引量 : 0次 | 上传用户:lzy6259404
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于当代信息技术的高速发展,现代的人类难以离开互联网带来的便利生活。新浪微博、微信公众号、博客等等手机App的发达使得人类也在不断地制造各种各样的网络信息,与此同时,各种各样,各门各科的资料、文献及统计数据从纸质实体转换为电脑可以识别的电子信息,导致信息数量成指数倍地爆炸式增长。信息匮乏的年代也离我们越来越远,给我们提出一个难题,就是如何在这日益堆积的无序的海量文本信息中高效准确地找到目标信息,这一直是研究人员研究的热点。作为数据挖掘的一个重要发展方向,文本挖掘包含但不限于文本的分类、文本的聚类分析、趋势的发现估测、关联规则的发现。其中,文本聚类是一种无监督学习技术。它通过将文本之间相似度大的尽可能分到同一组,将文本之间相似度小的尽可能分到不同的组,由此将潜伏的有价值的知识和规律从海量的不规则的文本数据中发掘出来,以供人们使用。目前,文本聚类已经在文本信息挖掘、信息检索、用户个性化推荐等多个领域得到了不同程度的使用和推广。在当前的文本聚类研究中,大多研究聚焦在对文本相似度计算的改进或者将传统的聚类算法应用到文本聚类上,然而传统的聚类算法如K-medoids对海量的不规则的文本聚类来说,缺乏稳定性和精确度。目前,已经存在应用群体仿生智能优化算法来改善此类问题的先例,如粒子群算法PSO、蚁群算法ACO。萤火虫算法(Firefly Algorithm,FA)模拟大自然中萤火虫群体通过发光来觅食、求偶的生物学特点而产生的一种新型智能仿生算法,其具有算法结构简单、鲁棒性强、容易实现等特点,与粒子群算法相比较,具有更强的搜索全局最优解的能力和更快的收敛速度,目前已被应用到优化问题、聚类分析、图像处理等多个领域。但是,对于使用萤火虫算法进行文本聚类仍处于起步的阶段,所以,如何针对文本聚类的特点,结合萤火虫算法的优势进行改进以获得更优良的性能具有重要的意义。本文所做的主要工作可以归纳为以下几个方面:(1)对传统的FA算法做了增强改进。传统的萤火虫算法虽然有算法结构简单、鲁棒性强、容易实现等特点,但也仍然存在收敛速度不理想、容易早熟等缺点。针对收敛速度不够快,本文为萤火虫的飞行设计了步长自适应的规则,其有利于在各个萤火虫飞行距离过远时调整飞行方向和速度,往一个方向聚集。同时,为了加快其搜索的速度,本文还提出了一种随机选择萤火虫来实现减少萤火虫算法运行时间的策略。(2)将增强的FA融合传统K中心点算法进行研究。通过分析FA的特点,本文将FA应用于文本聚类,提出一种融合萤火虫算法和传统划分的聚类算法K中心点算法的混合算法。(3)实验分析。分别将K-means、K中心点算法和本文提出的融合算法做了文本聚类实验,并对实验结果做了统计和详细的分析。实验结果表明,本文提出的基于萤火虫算法和K中心点算法的混合算法同传统的K中心点算法、K均值算法相比,拥有更佳的效果和更优的性能表现。本文将首次萤火虫算法应用于文本聚类,模仿萤火虫们基于发光度、感光系数、距离等因素的飞行构造萤火虫群,通过萤火虫群体的觅食、求偶行为来求取每个簇类中最佳的聚类中心,为文本聚类的研究提供了一种新的方法,同时也对萤火虫算法的发展有推动作用。
其他文献
在石油勘探领域,常常需要利用各种勘探手段获取地质数据,然后在计算机中将复杂的地质模型表示出来,以让地质学家更直观地观察地质特有的构造和属性,寻找和查明油气资源。本文
现有的图像搜索系统主要是基于内容的图像搜索,其最大问题是低层特征与高层语义之间的“语义鸿沟”,故本文采用目前用的最广泛的反馈搜索技术来解决此问题。但是医生对医学图像
随着片上系统,微机电系统和无线通信的技术的飞速发展,无线传感器网络技术得以实现。以其体积小,便于部署的优点得到快速发展,应用领域广泛,在军事领域,生态环境监测,医疗领域,道路状
流控制传输协议(Stream Control Transmission Protocol, SCTP)是新兴的传输层协议,拥有多宿和多流等特性。在下一代互联网中,越来越多的终端配备多接口,这为多路径同时传输(
增强现实(Augmented Reality,简称AR)技术能够将虚拟场景与真实场景完美融合从而实现对真实场景的增强和补充。跟踪注册是AR的关键技术之一,也是实现虚实场景融合的基础。将A
物流管理信息系统LMIS(Logistics Management Information System),是由人员、计算机软件、硬件、网络通信设备和其它办公设备组成的人机交互系统,完成的主要功能包括:物流信息
近年来,我国城市轨道交通事业尤其是地铁运输系统迅猛发展,为市民的出行带来了许多便利,但同时也使电能消耗迅速增加。现代经济的迅速发展必须依靠能源,而我国又是一个能源相对比
Web组合服务是将组件服务通过服务组合而成的,对于组合服务而言,每个组件服务是透明的,加之网络环境的复杂性和动态性,Web组合服务的执行效率成为一大难题。由于目前大多数的Web
伴随着互联网的高速发展,网络信息呈指数级增长。在如此海量的信息当中需要搜索引擎定位所需的信息。虽然通用搜索引擎在一定程度上能解决资源定位问题,但是其效果并不理想,
三维模型的应用涉及到各行各业,各个领域对三维模型的需求也与日俱增,因此,三维模型的数量一直在飞速地增长。创建逼真度较高的三维模型需要花费大量的时间和精力,如何从已有