论文部分内容阅读
BBS是目前最流行的网上讨论场所之一。它越来越受到网络用户的喜爱,特别在中国更加受到广大网民的欢迎。每天,在BBS上会产生大量新的讨论内容,使得人们对热点话题的获取越来越困难。为了解决这个难题,我们深入研究了BBS帖子发布、用户参与、话题讨论等各项特点,并提出了基于演化理论的BBS热点话题发现方法。首先,BBS中语言更加口语化、非正规化,大量的缩写、简写充斥于内容之间,而且有些帖子的内容根本没有实际的含义,即使是BBS经历丰富的用户也很难理解其中的意思。我们提取了这些无效帖子的特征进行过滤,保障了后续话题内容提取的质量。其次,BBS具有独特的话题讨论方式。经研究发现,虽然每天会产生大量的讨论帖子,但是大多数帖子讨论的只是少量几个话题。当社会突发事件产生时,用户可能会从不同的侧面新建主题进行讨论,或者BBS中有争议的主题出现时,用户也会新建主题进行不同观点间的切磋。本论文采用增量聚类技术对同一话题的主题内容进行了有效的组织。最后,BBS讨论存在话题偏移现象。基于帖子位置信息的主题向量构建方法很好的解决了此难题。为了找出符合要求的热点话题,我们明确定义了BBS热点话题的四大特征:帖子数量大,质量高,内容内聚度高,突发性特征明显。围绕此目标,我们提出的基于演化理论的BBS热点话题发现方案主要分为以下三个步骤。首先,对需要处理的BBS数据进行预处理,并通过增量单边聚类的方法获得候选话题。其次,基于这些抽取得到的话题,我们使用演化理论来计算每个话题的热度。以上两个步骤都是按时间增量进行的。最后,根据热点话题的定义调整参与排序的话题,然后根据每个话题的能量值按照降序排列,便可得到我们需要的BBS热点话题。在真实的BBS数据上进行的实验证明我们的方法是相当有效的。首先,基于演化理论的热点话题发现方法找到的热点更加全面。其次,由于深入研究了话题在BBS中的讨论特点,本方法还能找到传统方法无法发现的热点话题。再者,本方法采用的能量排序方法保证了所发现的热点话题具有更强的时效性。最后,本方法不仅可以很好的发现短时间兴起的热点话题,同时对延续时间较长的热点话题也十分有效。