论文部分内容阅读
由于当代信息技术的高速发展,现代的人类难以离开互联网带来的便利生活。新浪微博、微信公众号、博客等等手机App的发达使得人类也在不断地制造各种各样的网络信息,与此同时,各种各样,各门各科的资料、文献及统计数据从纸质实体转换为电脑可以识别的电子信息,导致信息数量成指数倍地爆炸式增长。信息匮乏的年代也离我们越来越远,给我们提出一个难题,就是如何在这日益堆积的无序的海量文本信息中高效准确地找到目标信息,这一直是研究人员研究的热点。作为数据挖掘的一个重要发展方向,文本挖掘包含但不限于文本的分类、文本的聚类分析、趋势的发现估测、关联规则的发现。其中,文本聚类是一种无监督学习技术。它通过将文本之间相似度大的尽可能分到同一组,将文本之间相似度小的尽可能分到不同的组,由此将潜伏的有价值的知识和规律从海量的不规则的文本数据中发掘出来,以供人们使用。目前,文本聚类已经在文本信息挖掘、信息检索、用户个性化推荐等多个领域得到了不同程度的使用和推广。在当前的文本聚类研究中,大多研究聚焦在对文本相似度计算的改进或者将传统的聚类算法应用到文本聚类上,然而传统的聚类算法如K-medoids对海量的不规则的文本聚类来说,缺乏稳定性和精确度。目前,已经存在应用群体仿生智能优化算法来改善此类问题的先例,如粒子群算法PSO、蚁群算法ACO。萤火虫算法(Firefly Algorithm,FA)模拟大自然中萤火虫群体通过发光来觅食、求偶的生物学特点而产生的一种新型智能仿生算法,其具有算法结构简单、鲁棒性强、容易实现等特点,与粒子群算法相比较,具有更强的搜索全局最优解的能力和更快的收敛速度,目前已被应用到优化问题、聚类分析、图像处理等多个领域。但是,对于使用萤火虫算法进行文本聚类仍处于起步的阶段,所以,如何针对文本聚类的特点,结合萤火虫算法的优势进行改进以获得更优良的性能具有重要的意义。本文所做的主要工作可以归纳为以下几个方面:(1)对传统的FA算法做了增强改进。传统的萤火虫算法虽然有算法结构简单、鲁棒性强、容易实现等特点,但也仍然存在收敛速度不理想、容易早熟等缺点。针对收敛速度不够快,本文为萤火虫的飞行设计了步长自适应的规则,其有利于在各个萤火虫飞行距离过远时调整飞行方向和速度,往一个方向聚集。同时,为了加快其搜索的速度,本文还提出了一种随机选择萤火虫来实现减少萤火虫算法运行时间的策略。(2)将增强的FA融合传统K中心点算法进行研究。通过分析FA的特点,本文将FA应用于文本聚类,提出一种融合萤火虫算法和传统划分的聚类算法K中心点算法的混合算法。(3)实验分析。分别将K-means、K中心点算法和本文提出的融合算法做了文本聚类实验,并对实验结果做了统计和详细的分析。实验结果表明,本文提出的基于萤火虫算法和K中心点算法的混合算法同传统的K中心点算法、K均值算法相比,拥有更佳的效果和更优的性能表现。本文将首次萤火虫算法应用于文本聚类,模仿萤火虫们基于发光度、感光系数、距离等因素的飞行构造萤火虫群,通过萤火虫群体的觅食、求偶行为来求取每个簇类中最佳的聚类中心,为文本聚类的研究提供了一种新的方法,同时也对萤火虫算法的发展有推动作用。