论文部分内容阅读
随着国家、企业对网络舆情的日益重视,越来越多的网络舆情监控系统被开发出来帮助政府、部门或企业应对在网络上爆发的关于自己的舆论压力或群体性事件。在使用门槛很低、信息披露很容易、传播很快、影响很大的互联网环境下,监控系统实时采集相关信息,智能分析信息内容,及时发现舆情危情,为自动化解决监看、处理网络舆情提供了很好的支持,极大地方便了用户,有力地辅助用户及时正确地处理舆情危情。在大部分舆情监控的系统中,用户通过定制来源网站等信息让系统周期性地采集网站报道,经系统分析处理后将用户关心的报道呈现出来。在这个过程中,大量重复的或者描述同一事件的报道杂乱地出现在显示结果中,既不利于用户的查看、分析、总结,也不利于系统评价事件的报道详情、准确计算事件的热度,因而需要运用话题发现技术对这一问题进行改善。本文首先研究了话题发现的关键技术,在分析话题发现流程后得出聚类是其中的关键步骤的结论,因此,接下来阐述了各种聚类算法的原理并以此为基础分析对比了各算法的利弊,最终选取了在话题发现的评测中使用最多的single-pass算法,然后分析了该算法从评测走向实际应用遇到的困难和制约因素,本文中从算法响应速度、聚类精度和用户介入等角度着手改进single-pass聚类算法,最终取得了良好的实际应用效果,达成了话题发现的目标。接下来针对舆情监控的特定应用,研究热点发现的话题热度评价方法,在已有基于关注度的热度指标基础上,本文提出基于关注度和影响能力的综合热度指标,更加准确地契合舆情危情发现的目标,经过热度排序后的话题直观简洁地向用户推荐了舆情监控的急缓先后顺序,使用户可以更好地应对复杂多变的网络环境。通过在舆情监控系统中整合话题发现技术和热点发现技术形成有机统一的热点话题发现模型,具有较高的应用价值;同时,虽然话题发现技术和热点发现技术的研究比较成熟,但技术的实用化过程中遇到很多问题严重制约了技术的效果,所以在舆情监控系统中建立热点话题发现模型也具有较高的研究意义和研究价值。文章最后通过运行实例和对比分析验证了模型的可行性和有效性。