论文部分内容阅读
日益丰富的网络信息和民众日益复杂的网络行为,使网络准确反映和记录着现实社会的各种舆情动态。加强网络管理,组织力量开展网络舆情信息的挖掘,将话题检测、倾向性分析、敏感信息监控等技术应用于检测互联网上民众关注的热点话题、分析民众对事件的态度倾向、监测对相关部门造成威胁的负面信息、过滤网络不良信息等,对维护社会稳定、社会公共安全、构建和谐社会具有重要的现实意义。由于舆情信息的动态性、随意性、表现方式的多样性等特征,使得舆情信息挖掘在网络话题检测、舆情信息倾向性分析、网络舆情信息监控等方面存在一些挑战性的问题:(1)现有话题检测算法无法同时满足准确性、实时性、话题层次结构聚类的舆情热点检测要求;(2)现有文本情感表示方法存在语义信息大量丢失的问题,降低了倾向性判别的精度;(3)现有敏感信息监控模板更新优化困难及现有被过滤信息权重计算方法存在忽略文档特性的问题。本文针对话题检测、倾向性分析、敏感信息监控等舆情信息挖掘关键技术中存在的以上问题展开研究,本论文的贡献主要包括以下三个方面:(1)针对现有网络热点话题检测算法无法同时满足舆情热点检测准确性、实时性、话题层次性聚类的问题,提出基于改进single pass增量聚类算法的层次话题检测方法,并利用舆情评价指标分析话题热度,实现网络热点话题的及时、准确检测并呈现其话题的层次性结构。本文提出的层次话题检测方法利用重构后的舆情信息文本结构特征改进single pass增量聚类算法,有效克服现有话题检测方法不能同时满足舆情热点检测准确性、实时性、话题层次聚类的问题。此外,本文利用浏览量、回复量等舆情信息评价指标构建话题热度分析方法,有效地识别网络中的热点话题。实验结果表明,该方法能及时、准确的发现互联网中的热点话题并展现话题的层次性结构。(2)针对网络舆情信息倾向性分析中语义信息大量丢失的问题,提出基于词序列核的舆情信息倾向性分析方法,提高了倾向性判别精度。本文提出了基于改进词序列核的舆情信息倾向性分析方法。该方法利用文本情感特征的统计信息和顺序结构信息,对文本情感语义信息进行深层次的挖掘,构建了基于后缀树的文本情感表示模型,并利用词序列核直接对后缀树情感表示模型进行计算,得到在特征空间中的相似度,从而完成后缀树表示模型与支持向量机分类模型的融合,生成基于词序列核的支持向量机分类器。该方法克服了当前文本情感表示模型中语义信息缺失的问题。实验表明,该方法能够更精确的完成舆情信息倾向性分析。(3)在基于内容的敏感信息监控中,针对过滤类别模板固定而且难以优化的问题,提出了一种基于动态遗传算法的模板生成方法;针对被过滤信息在长度、包含的语义等方面存在较大差异的现象,提出了一种基于文档特性的权重计算方法,提高了敏感信息监控效率。本文提出的基于动态遗传算法的敏感信息过滤方法,通过自动优化克服了传统过滤方式中模板一旦生成就很难改变的问题,提高了过滤精度。该方法首先将经过挖掘处理的网络舆情信息文本进行切词、权重计算等预处理,形成特征项及其权重组成的向量;然后将经过预处理的文本形成遗传算法的基因串并进行选择、交叉以及变异等遗传操作,最终选出优化的文本向量;由于实验过程中发现遗传算法存在随意性,使得操作过程容易陷入局部最优,因此引入遗传算法参数的动态调整策略,动态调整遗传算子,寻找遗传算法最优解;同时在匹配阶段还对被过滤信息提出了结合文档权重、位置权重等文档特性的权重计算方法。实验表明,基于动态遗传算法的敏感信息监控方法能够得到更好的处置模板,提高敏感信息监控效果。