基于社交媒体的事件检测与追踪技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:sondenaclaire3
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社交网络服务是近年来迅速兴起并逐渐渗透到社会各用户群体的计算机应用服务,社交网站允许用户通过桌面电脑、移动平板、手机等各种终端设备,以简短的文本进行内容更新和消息发布,使每个人都成为了一个具有生产者和消费者双重身份的“自媒体”。现在,社交媒体信息转播的时效性和广泛性使其成为事件检测的重要来源。事实证明,社交媒体对于突发性新闻和紧急事件的报道速度比传统的新闻专线公司快得多。利用社交媒体消息传播的时效性实现事件检测与追踪,对紧急事件的及时预警和快速反应具有很重要的意义。  基于以上对应用背景的分析,本文针对基于社交媒体的事件检测与追踪技术中存在的相关难点及问题进行研究和探索。目的在于检测出隐藏在社交媒体实时消息中发生在现实世界的事件,抽取事件的时空要素信息,并在事件要素信息的基础上对事件进行追踪,最后对事件的重要性做出评估。本文的主要贡献包括:  1.提出了一种无词典的细粒度位置短语识别方法  为实现从社交媒体消息中准确地抽取事件的位置信息,本文研究并分析了事件发生的位置与社交用户注册位置、GPS标签位置和消息文本描述位置的关联关系,发现消息文本中的位置短语是事件实际发生位置的可能性最大。因此,本文重点研究了基于文本的事件位置信息抽取技术,并提出了一种无词典的细粒度位置短语识别方法,该方法基于词性标注和SVM分类器识别消息文本中的街道位置短语,抽取粒度比城市更小更精确的位置信息。实验表明,本文提出的细粒度位置短语识别方法能够不依赖词典,实现高准确率的街道位置短语识别,弥补了现有自然语言处理工具在缺少位置词典支持的前提下,无法识别细粒度位置短语的缺失,提高了基于文本抽取事件位置信息的能力。  2.提出了一种基于时空分析的目标领域事件检测方法  为实现从社交媒体中检测与特定领域事件相关的消息,本文针对目标领域事件检测技术进行探索和研究。通过分析目标领域事件相关消息与噪声消息之间的区别,本文提出了一种基于时空分析的目标领域事件检测方法,该方法改进并扩展了现有研究中用于构建事件检测分类器的特征组,在社交媒体特征、语言学特征、内容特征的基础上,引入了基于时态分析的时间特征和多粒度的空间特征,实现对事件相关消息和噪声消息的区分,并基于对消息内容的时态分析排除与过去事件相关的消息。实验表明,本文提出方法能够提高从社交消息流中识别目标领域事件相关消息的准确率和召回率,尤其针对小规模的特定领域事件,检测效果的提升更为明显,并能够有效排除发生在过去的事件消息,保证事件检测的实效性。  3.提出了一种高效的基于时空文本相似性的事件追踪方法  为实现基于社交媒体实时跟踪目标领域事件的发展动态和趋势,本文针对社交媒体消息的相似性计算规则和聚类方法进行探索和研究,提出了一种高效的基于时空文本相似性的事件追踪方法。该方法通过增加时间和空间相似度系数的方式,改进了文本余弦相似度,建立了针对事件消息聚类的相似性计算规则,提高了针对同一事件进行消息聚类的准确率。同时,为了提高大规模社交媒体消息的聚类效率,本文方法基于局部敏感哈希和位置倒排索引,将同一哈希桶内的消息或具有相同位置索引的消息作为相似性计算的候选集,减少消息之间相似性计算的次数。实验表明,本文方法的事件追踪效果比仅基于局部敏感哈希的聚类方法更好,并且执行效率比传统1-NN聚类方法更高。此外,本文方法基于用户关注程度、位置覆盖数量和实体参与数量对聚类形成的事件簇的重要性进行评价。  4.支撑了网络监督与互助服务集成系统的建设  通过对基于社交媒体的事件检测、追踪与评价技术,以及事件时间和位置信息抽取技术的研究,为网络监督与互动服务集成系统的建设提供必要的技术支撑。应用本文的研究成果搭建了舆情搜集与分析子系统,通过应用目标领域事件检测技术,实现了从社交消息流中检测用户指定领域事件的功能,提供了舆情信息搜集服务;通过应用时间和空间位置信息抽取技术,实现了事件时空要素的抽取功能,提供了对舆情的识别和分析服务;通过应用事件追踪和重要性评价技术,实现了构建事件消息集合并按照重要性排序的功能,提供了舆情动态和影响的感知服务。
其他文献
交联振荡器链系统的研究来源于运动神经系统信号传播的机理的研究,它的分析直接应用于人体经络理论的研究及针灸方案的探索,它是中医学理论中新的研究领域.对弱交联振荡器链
该论文深入浅出阐述了模糊控制的发展历程、基本原理和基本方法,系统介绍了模糊控制的软件开发工具,特别地对模糊控制的推理算法(包括模糊化、模糊推理、反模糊化)进行全面、
论文以图象媒体为基础,研究了分布式多媒体网络环境(主要是数字化图书馆)中,如何根据图象内容,即从图象中提出的特征描述进行检索,以实现快速、高效地利用图象媒体信息.
该文通过对磨削加工的特点、过程、有关加工表面粗糙度的问题及模糊神经网络技术理论的分析,提出了一种自适应模糊神经网络控制器(AFNNC),并将其应用于磨削加工表面粗糙度的
该文主要包括以下几个方面的内容:1)对盲人用计算机的现状及需求作了简要的分析,从技术的角度分析了设计盲人用计算机的可行性;2)对语音合成技术进行了综述,对目前流行的共振
近年来,工业控制领域发展迅速,已经开始从局部自动化向综合自动化方向 过渡.随着自动化技术、计算机技术、网络通信技术的迅速发展,控制和管理开始逐步走向融合,伴随着企业
未知非线性系统的自适应控制问题一直是控制领域中未能很好解决的一个难题.由于非线性系统本身的复杂性,单纯依靠传统的控制理论已无法彻底解决非线性系统的控制问题.以模糊
该文针对合成氨生产中氮氢比控制问题,进行了仿真研究.首先,根据工业现场情况,将氢氮比控制分为两个环节:造气环节和合成变脱环节,并提出了仿真模型.在此基础上,根据造气环节
信息资源日益成为企业生产经营必不可少的要素,信息化则是企业获取信息资源的必要途径.该文通过系统分析企业要营系统在企业过行中的核心地位和作用,指出经营系统的信息化是
视线估计在心理学、市场/广告分析、医学研究、人机交互等众多领域有着广阔的应用前景,受到了研究者们的广泛关注,已成为计算机视觉、模式识别和人机交互领域的热点研究课题。