论文部分内容阅读
网络论坛中存在很多话题,通过这些话题可以了解当前社会的舆情,并可以对其进行监控,实施积极引导。对于相应的舆情监控系统,主要研究内容包括话题识别和话题监控。话题识别是对网络文本集进行处理,发现其中包含的话题类别,将文本集中的文本归入相应的类别。话题监控是对相关话题进行监测,并进行跟踪和控制。在网络话题识别方面,现有的研究中最重要、最基本的技术是文本分类和文本聚类。对于给定的一个话题,如果用分类或聚类的方法在文档集中得到相应的文本集合,无论是训练样本的学习还是聚类个数的给定,或者是决定类别粒度的阈值选取,在网络论坛的特殊情况下,其结果可能不能够很准确、全面地描述该话题。基于这些情况,文本提出了面向网络论坛的话题补全问题,并且实现了一种基于关键字的话题补全方法,使得用户可以根据给定的与某个话题相关的关键字对该话题进行较为全面的关键字补充。在话题热度计算方面,现有的研究都是对访问量、回复量、点击量等数据进行加权处理来计算相关话题的热度,这种方式下,权重的选取对最后的话题量化结果影响很大,对同样的话题、同样的数据取不同的权重计算出的热度数值会呈现出颠覆性的变化。本文根据这些情况提出基于用户活跃程度的话题热度计算方法,将用户在网络行为中的活跃程度作为计算网络话题受关注程度的指标。通过这种方法,可以比较有效地避免了由于少数用户关注程度大而造成的话题热度失真情况。