论文部分内容阅读
随着互联网络的快速发展,互联网日渐成为舆情产生和传播的主要场所。为了加强互联网管理和监控,互联网舆情信息的汇集整理与分析成为目前各级政府部门急需解决的现实问题。舆情监控分析系统可以实现海量互联网舆情自动实时的监测分析,有效地解决传统人工方式对舆情监测的实施难题。在诸多互联网舆情智能分析功能中,舆情热点自动发现和分析技术的研究和应用是其中重要的一环,可以帮助用户及时快捷地了解和掌握互联网热点,为掌握社情民意起到推动作用。研究了舆情热点的自动发现及深入分析技术,本文针对舆情热点自动检测的实际应用,提出了一个实用的舆情热点动态检测算法。该算法通过引入如下几个步骤提高了舆情热点检测的效果:在主题排序方面,综合考虑了主题的时间和数量特性,为某一时刻的每个主题给出一个合理得分值;引入主题合并和调整的机制,克服同一个主题被误分为多个小主题的问题;引入主题内报道淘汰的机制,避免主题内容过于宽泛;在主题描述方面,提出了将特征词和报道标题相结合的方法。实验表明,在实际应用场景中,本文所述方法明显提高了舆情热点的检测效果。在多文档的自动关键词提取方面,本文提出了结合词性规则和统计信息的方法,有效利用多个文档所反映的的全局性的重要信息,同时又尽可能的过滤掉信息冗余。该方法首先基于词性标注结果找出名词、动词、名词短语作为候选关键词;然后过滤部分候选关键词,并计算其余候选关键词的权重;最后根据用户所需个数给出最终关键词列表。在中文测试集上的实验证明了该方法的有效性。在舆情褒贬分析方面,本文分别在如下三个方面进行了研究。一是提出了基于搜索引擎摘要和基于同义词词林的两种词汇褒贬计算方法:其中前者利用搜索引擎摘要中的词汇共现关系提高词汇褒贬判断的准确率;后者利用同义词词林中的词群关系根据种子词汇扩展褒贬义词词典。二是分析了基于褒贬义词词典和基于机器学习的两种文档褒贬分析方法:其中前者集成了HowNet、同义词词林以及领域褒贬义词词典,具有较高的准确率;后者则利用机器学习方法从训练文档中学习褒贬特征,具有较好的总体性能。三是提出了基于词性规则和已有褒贬词典的观点抽取方法,该方法可以较准确的抽取到文档集中的评论主体及观点。本文最后给出了一个具体的应用实例系统——互联网舆情监控分析系统,说明本文研究的舆情热点自动发现和分析技术有效改进和完善了该系统,具有重大实用意义。