论文部分内容阅读
网络话题层出不穷,往往会引发重大舆情危机,如何快速高效的从海量信息中发现热点是一重大挑战.本文提出了一种基于主题词的网络热点话题发现算法。其基本思想为:首先综合主题词表和有意义串识别结果生成主题词候选集;然后对候选集进行多重过滤并采用启发式规则对主题词进行权重计算;最后,以主题词为线索,采用多特征的话题模型,融合新闻、论坛、博客的相应特征实现了网络热点话题的发现。通过在TDT4评测语料和中科院计算所天玑舆情监测系统平台上的实验分别取得了0.282的最小识别代价和93.3%的用户满意度,算法运行效率高于传统方法.实验表明,该算法对网络热点话题发现行之有效。