论文部分内容阅读
随着互联网技术的不断革新和计算机技术的迅速更替,互联网已经由最初的通信网络发展成Web2.0模式。在Web2.0时代,新型的网络资源及网络Web应用程序不断增加,存在“信息孤岛”和“信息过载”现象,从海量的网络信息资源中发现和分析热点话题成为亟待解决的重要问题。尽管机器学习、自然语言处理等多个方面的技术已经在网络热点话题发现中得到了广泛的应用,但是现有的网络热点话题发现算法具有相对局限性,算法的性能仍然不能达到用户满意的标准,还有许多问题有待进一步研究。针对存在的信息资源多样化和冗余性、提出了资源聚合的方法,针对潜在关键词、高维灾难、时间延迟等问题,提出了基于Mantaras距离优化的关键词词组的提取、基于蚁群优化的迭代自适应聚类算法及基于特征优化的热点话题过滤算法,并且通过实验验证了所提出算法的准确性和高效性。