论文部分内容阅读
随着互联网的飞速发展,网络媒体已经成为人们获取信息的重要来源,网络舆情信息的导向作用越来越大,同时,网络舆情已经成为社会情报的一种重要表现形式。网络信息庞杂多样,虽然对社会的发展起了积极的作用,但是网络舆情发生的范围广、传播的速度快。因此,随之而来的也有着信息安全问题的存在,反动、淫秽、迷信等有害信息在网络中的传播,严重危害了国家的安全和社会的稳定。如何准确又实时的发现网络舆情热点的研究已经成为目前国内外的一个研究热点。对网络舆情热点发现问题中的相关技术进行优化和改进,可以更加准确的把握网络舆情热点,提高热点发现的效率和准确率。网络舆情热点发现问题主要是考虑其中的特征提取和聚类算法技术,快速高质量的文本聚类技术可以将海量的文本信息分成有意义的若干簇。近年来人们致力于聚类算法的研究,如ARHP算法、PDDP算法、K-means算法、PAM算法、DBSCAN算法、OPTICS算法等,这些算法可以很好的对文本进行聚类,但是在进行热点发现时都有局限性,如需要热点词汇的提取、相似度的计算等。本文将热点发现问题描述成基于特征词提取与聚类算法相结合以及文档相似度计算问题,同时对特征词提取和相似度计算这两个方面进行改进。本文在研究热点发现方法的基础上,针对现有的特征词提取方法仍存在的一些问题,以及文档相似度计算方面可以做出的改进,设计了从标题提取特征词和改进文档相似度计算公式,并结合相关聚类算法来实现网络舆情热点发现的算法,致力于提高网络舆情热点发现的准确率。本文主要研究工作包括:(1)关键词质量的高低和文章的各个要点的内容是息息相关的。因此要有效的提取关键词,就要全面理解文章的内容和文中各词语的确切词义。为了提高热点词汇的提取质量,提出从标题中提取特征词来得到质量较高的热点词汇。(2)在进行热点发现时,无论是使用分类算法还是聚类算法都要先分析两个向量之间的相似程度(即相似度),为了更能反映文章真实的相似性。根据给出的相似度计算公式,将特征项的权重考虑进去,提出将特征项的权重值融入相似度公式中综合考虑的方案。(3)在上述工作的基础上,以结合标题特征词提取方法和改进的相似度计算公式方法,本文在基于密度的聚类算法基础上提出基于标题特征词和相似度计算与DBSCAN密度聚类算法相结合的热点发现算法。最后通过将标题特征词集与密度聚类算法相结合得到的热点聚类,以及结合了改进的相似度指标所生成的热点聚类,和一般特征词提取方法与密度聚类算法相结合得到的热点聚类结果进行对比实验分析,本文算法显示出了较高的准确率。