微博环境下话题追踪技术的研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:hqianhua
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为一种流行的社交网络媒体,微博客(简称微博)使得用户能够更简单地分享、传播和获取信息。用户在使用微博服务的时候,希望能追踪自己所感兴趣事件的实时发展情况。本文主要针对微博环境下的话题追踪任务进行研究。与传统新闻媒体相比,微博具有文本长度短、传播速度快、用户群庞大、互动性强等特点,而且微博的实时性导致话题漂移更频繁、更难预测。这些特性使得微博环境下的话题追踪任务不同于传统的新闻媒体。为此,本文提出了基于时间滑动窗口的微博话题追踪模型和基于子话题检测的微博话题追踪模型,并实现了微博话题追踪的原型系统。  基于时间滑动窗口的微博话题追踪模型由内容模型和反馈模型两部分组成。内容模型用于描述微博内容的语义特征,本文抽取了微博包含的短链接所指向的网页的主题信息来扩展微博语义信息;特别地,本文发现过滤高质量的微博能提升话题追踪的效果,为此本文利用微博的社交化特征来衡量微博的质量。反馈模型通过一个时间滑动窗口用一组最近相关微博来动态描述话题当前的重心。除此之外,针对微博初始背景语料稀少的问题,本文采用一种动态更新背景语料索引的方法来处理冷启动问题。在TREC2012数据集上的实验证明,本文提出的方法在T11SU和F-0.5评价标准上都取得了很好的结果。  为了处理微博环境下的话题漂移现象,本文提出了基于子话题检测的微博话题追踪模型。本文认为话题的子话题有助于观察事件的发展历程,并且,子话题可以帮助判断新发布的微博跟话题的相关性。在该模型中,本文提出了两种子话题表达模型:基于微博词汇的子话题表达模型和结合微博词汇和时间因素的子话题表达模型。在TREC2012数据集上的实验证明,该方法在T11SU和F-0.5评价标准上都取得了很好的效果。特别地,当话题对实时信息比较敏感时,使用结合微博词汇和时间因素的子话题表达模型能取得更好的追踪效果。
其他文献
云计算平台上大数据的存储管理是当前数据库领域的一个重要的研究方向。由于数据已成为一种关键的战略资源和不可或缺的生产要素,作为信息基础设施的云数据存储系统充当了不同
医学图像处理算法的研究是近年来随着医学成像技术的发展而出现的一个新的图像处理方向,并且随着核磁共振成像(MRI),正电子发射成像(PET)等成像技术的发展还在不断地发展,因
软件设计模式是目前面向对象领域中研究的热点,研究及应用设计模式有助于软件的设计,并且能提高软件的可维护性和可复用性.该文在系统地总结设计模式的基础上,归纳并研究了与
随着数字时代的不断进步,数字视频的数量也在飞速增长。同时,随着互联网技术的不断发展,数字视频传输所需的时间也在不断缩短,这也导致盗版视频日益猖狂,因而需要有效的技术手段用
该课题来源于燕山大学"四辊轧机板形控制系统研制专题".作者和课题组一起研制出了压磁式四辊轧机板形仪,并在此基础之上,独立进行了Windows环境下板形仪计算机开环检测系统硬
随着传感器和智能设备普及,情境感知技术与应用成为了研究热点。此类应用通常包含:传感器接入与感知数据获取、基于数据分析的情境分析与推理、以及基于情境的服务调用三个层
入侵检测作为一种主动的网络安全技术,能够有效地弥补防火墙的不足,被视为防火墙后的第二道安全屏障.但是,传统的入侵检测系统(IDS)缺少对变化网络环境的动态适应能力,限制了
近年来,随着视频监控系统的普及,摄像头被安装在世界的各个角落,由此产生了大量的视频数据,如何自动分析这些视频数据,成为迫切的需要。目标跟踪为自动视频处理提供了重要的数据基
多相流在工业生产中得到广泛应用,多相流参数检测在科学研究和工业生产中发挥越来越重要的作用。多相流参数的准确测量,可揭示多相流动的机理,建立多相流动模型,并对流动过程预测
该文研究的MDA(Model Driven Architecture,模型驱动体系结构)是一种基于形式模型的系统规约和互操作性方法,它将系统功能规约与特定技术平台的功能实现规约相分离,以达到"一