论文部分内容阅读
近年来,热点话题层出不穷,不断点燃网络舆论。几乎每个热点话题都有铺天盖地的相关信息。有效的对话题演化进行分析有助于人们及时了解话题发展动态,掌握话题演化脉络,总结话题发展规律,为科学制定决策提供帮助。已有的相关研究分析较为粗糙且不够深入,主要存在如下三个方面问题:(1)重在捕捉全局的主题语义信息,没有兼顾局部词汇语义信息,语义连贯性较差;(2)对话题发展过程中有显著影响事件的定位准确性较差;(3)不能有效厘清话题的演化发展脉络,无法高效的对话题的演化趋势进行直观展示。主题词向量模型能够有效解决或改善以上问题。本文研究了基于主题词向量模型的话题演化分析技术,主要研究成果如下:(1)研究了话题内新事件检测。传统的主题模型无法有效兼顾文档隐含的主题语义信息和局部词汇语义信息,实际应用中性能不够理想且波动较大。本文提出了基于主题词向量聚类的话题内新事件检测方法。首先,通过主题词向量模型对经预处理的文档进行训练来获取主题词向量,可以有效的兼顾全局的主题语义信息和局部词汇语义信息;然后,对获取的主题词向量进行K-means聚类来获取话题内的子话题分布;最后,基于各个子话题所包含文档时间戳的先后顺序,完成话题内新事件检测。实验结果表明,该方法较传统新事件检测方法取得了更好的性能。(2)研究了事件演化关系识别。传统的词语特征向量空间模型无法准确表示事件语义,且对于事件相似度的比较停留在词语级别。本文提出了基于主题词向量模型的事件演化关系识别方法。首先,通过主题词向量模型对文档进行训练来获取主题词向量;然后,利用事件对应的主题词向量构建事件向量;最后,通过事件向量计算事件相似度,完成事件演化关系识别。实验结果表明,较已有的相关研究,该方法提高了事件演化关系识别性能。(3)研究了话题演化图构建。传统话题演化图构建方法未能深入挖掘话题的主题语义信息和词汇语义信息,且存在需要事先指定文档聚类数目的局限。本文提出了基于事件向量聚类的话题演化图构建方法。首先,利用主题词向量生成事件向量;其次,对事件向量进行聚类,获取文档的类别分布;然后,根据文档的类别标签发现节点,并利用其对应的事件向量在节点间建立边;最后,选择节点代表性文档,并根据节点边构建话题演化图。实验结果表明,该方法能够生成比较清晰的话题演化图,较好地展示了话题演化脉络。