论文部分内容阅读
随着互联网信息的继续指数级增长,以及互联网在全球范围内的日益普及,互联网已经成为全球最大最具潜力的社会舆论集中地。在这样的形势下,对舆情信息的监控和分析就显得越来越重要。互联网每天都会产生大量的信息,如何高效准确的挖掘出每天的热点话题和突发事件成为舆情监控的研究重点。中文时间表达式识别是近年来研究的热点,中文时间表达式识别多使用机器学习方法识别范围,使用规则的方法规范化,但是特征的选择和规则的制定都很不健全,本文提出一种特征选择算法,并人工制定了规范化规则。传统热点话题发现的研究对时间信息的考虑过于单一,本文针对这种情况,将时间粒度精确到分钟,并通过新闻的文本表示和聚类的相似度计算两方面将时间信息融入到了话题发现算法中。在突发事件识别方面,加入时间信息,考虑时间相近因素。本文以规范化的时间表达式为基础,研究舆情热点话题和突发事件识别技术,主要工作如下:1.提出一种中文时间表达式范围识别的特征选择算法。针对传统的特征选择算法难免会丢失最佳特征组合的缺陷,本文提出一种增减特征交集的特征选择方法,对这些特征进行了进一步的筛选,并用穷举实验结果对这种特征选择方法进行了验证。分别利用条件随机场、SVM、最大熵模型在TempEval-2中文语料上的实验结果进行了比较分析,并分析了标注错误的可能原因。利用本文的方法,最后识别的结果F1值比其他研究者的结果都要高。2.加入规则方法对中文时间表达式类型识别。本文在SVM方法的基础上,加入了规则的方法对中文时间表达式的类型进行了识别,通过在TempEval-2中文语料上的实验证明了方法的有效性,其正确率达到了96.88%,明显高于其他研究者的方法。3.提出中文时间表达式规范化格式和算法。本文以UTC时间为标准时间,将不同来源的新闻文本按照时区进行统一的映射。在参考时间概念里,为了对大规模的数据进行实时分析,加入了新闻获取时间的概念。人工定义了一些模糊时间词的范围,设计了中文时间DATE和TIME类型的规范化格式。在上述基础上设计了中文时间表达式的规范化算法。4.在舆情热点话题发现技术中融入时间信息。本文将时间信息以新闻表示模型和聚类相似度计算因子两种形式加入到Single-Pass算法中。本文用tfidf作为向量空间模型的权重表示新闻文本,并对其中的人名、地名、机构名、时间词、标题词、正文第一段词提高其权重,来更加准确全面有重点的表示新闻文本。这里的时间词是规范化后的时间表达式。在计算相似度的时候,本文除了利用传统的余弦相似度计算公式,还加入了时间距离的因素,并定义了时间距离的函数,将时间粒度缩小到分钟,比其他研究者的方法更加细致的反映了聚类中心的时间。利用上述改进,本文在真实网络环境下手工标注的10类话题的语料上进行了实验,验证了加入时间信息对于舆情热点话题发现的有效性。5.提出基于时间相近的突发事件识别算法。为了更加准确、及时的对突发事件进行告警,提出了基于时间相近的突发事件识别算法,并设计和实现了突发事件告警系统。