论文部分内容阅读
随着网络技术的普及,互联网已经成为一个不可忽视的舆论宣传阵地,凸显网络舆情的重要性。网络舆论热点层出不穷,各种突发性事件都是通过互联网第一时间扩大传播。互联网已经成为政府了解社情民意的直接渠道,也是新形势下政府的重要舆论阵地。因此,网络舆论一旦被错误地控制和引导,将成为影响社会稳定的重大隐患。如何应对网络舆情,目前正在考验着我国各级政府,获取并分析网络舆情已经成为行政部门决策的重要依据。本文讨论舆情监测及其相关技术的研究,为此,作者实现了一个由全文检索系统和一个聚类系统构成的基本舆情监测系统作为实验基础,针对其中的两项技术中文分词和文本聚类进行了较为深入的研究。取得了以下结果:1.提出了基于平衡2叉树结构的快速分词方法,并对多种中文分词方法进行了实验对比,提出的带频率的双字哈希词典较之于普通双字哈希词典提高了分词速度,这种提高在待切分文本量增大时效果逐渐明显。2.通过对传统聚类方法的研究,提出了对K-means聚类的改进算法,并通过实验对比验证了改进方案的有效性。