论文部分内容阅读
社交网络服务是近年来迅速兴起并逐渐渗透到社会各用户群体的计算机应用服务,社交网站允许用户通过桌面电脑、移动平板、手机等各种终端设备,以简短的文本进行内容更新和消息发布,使每个人都成为了一个具有生产者和消费者双重身份的“自媒体”。现在,社交媒体信息转播的时效性和广泛性使其成为事件检测的重要来源。事实证明,社交媒体对于突发性新闻和紧急事件的报道速度比传统的新闻专线公司快得多。利用社交媒体消息传播的时效性实现事件检测与追踪,对紧急事件的及时预警和快速反应具有很重要的意义。 基于以上对应用背景的分析,本文针对基于社交媒体的事件检测与追踪技术中存在的相关难点及问题进行研究和探索。目的在于检测出隐藏在社交媒体实时消息中发生在现实世界的事件,抽取事件的时空要素信息,并在事件要素信息的基础上对事件进行追踪,最后对事件的重要性做出评估。本文的主要贡献包括: 1.提出了一种无词典的细粒度位置短语识别方法 为实现从社交媒体消息中准确地抽取事件的位置信息,本文研究并分析了事件发生的位置与社交用户注册位置、GPS标签位置和消息文本描述位置的关联关系,发现消息文本中的位置短语是事件实际发生位置的可能性最大。因此,本文重点研究了基于文本的事件位置信息抽取技术,并提出了一种无词典的细粒度位置短语识别方法,该方法基于词性标注和SVM分类器识别消息文本中的街道位置短语,抽取粒度比城市更小更精确的位置信息。实验表明,本文提出的细粒度位置短语识别方法能够不依赖词典,实现高准确率的街道位置短语识别,弥补了现有自然语言处理工具在缺少位置词典支持的前提下,无法识别细粒度位置短语的缺失,提高了基于文本抽取事件位置信息的能力。 2.提出了一种基于时空分析的目标领域事件检测方法 为实现从社交媒体中检测与特定领域事件相关的消息,本文针对目标领域事件检测技术进行探索和研究。通过分析目标领域事件相关消息与噪声消息之间的区别,本文提出了一种基于时空分析的目标领域事件检测方法,该方法改进并扩展了现有研究中用于构建事件检测分类器的特征组,在社交媒体特征、语言学特征、内容特征的基础上,引入了基于时态分析的时间特征和多粒度的空间特征,实现对事件相关消息和噪声消息的区分,并基于对消息内容的时态分析排除与过去事件相关的消息。实验表明,本文提出方法能够提高从社交消息流中识别目标领域事件相关消息的准确率和召回率,尤其针对小规模的特定领域事件,检测效果的提升更为明显,并能够有效排除发生在过去的事件消息,保证事件检测的实效性。 3.提出了一种高效的基于时空文本相似性的事件追踪方法 为实现基于社交媒体实时跟踪目标领域事件的发展动态和趋势,本文针对社交媒体消息的相似性计算规则和聚类方法进行探索和研究,提出了一种高效的基于时空文本相似性的事件追踪方法。该方法通过增加时间和空间相似度系数的方式,改进了文本余弦相似度,建立了针对事件消息聚类的相似性计算规则,提高了针对同一事件进行消息聚类的准确率。同时,为了提高大规模社交媒体消息的聚类效率,本文方法基于局部敏感哈希和位置倒排索引,将同一哈希桶内的消息或具有相同位置索引的消息作为相似性计算的候选集,减少消息之间相似性计算的次数。实验表明,本文方法的事件追踪效果比仅基于局部敏感哈希的聚类方法更好,并且执行效率比传统1-NN聚类方法更高。此外,本文方法基于用户关注程度、位置覆盖数量和实体参与数量对聚类形成的事件簇的重要性进行评价。 4.支撑了网络监督与互助服务集成系统的建设 通过对基于社交媒体的事件检测、追踪与评价技术,以及事件时间和位置信息抽取技术的研究,为网络监督与互动服务集成系统的建设提供必要的技术支撑。应用本文的研究成果搭建了舆情搜集与分析子系统,通过应用目标领域事件检测技术,实现了从社交消息流中检测用户指定领域事件的功能,提供了舆情信息搜集服务;通过应用时间和空间位置信息抽取技术,实现了事件时空要素的抽取功能,提供了对舆情的识别和分析服务;通过应用事件追踪和重要性评价技术,实现了构建事件消息集合并按照重要性排序的功能,提供了舆情动态和影响的感知服务。