基于文本内容的微博突发话题检测技术研究

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:dotnetgroup
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微博的开放性与便捷性,使得微博己经成为了网络舆论传播的一个重要平台。但是微博信息量大,传播速度快,这给网络舆情的收集和管理工作带来了挑战。因此,如何从微博信息流中及时准确地检测出突发话题是当前研究中的一个难点和热点问题。本文对微博突发话题侦测中的两个关键技术:突现主题词和观点词的检测方法展开了研究。其主要工作包括如下三个方面。首先为了提高侦测话题的准确率和召回率,提出了一种基于内容搜索的突现主题词检测方法。以暴发性关键词为线索,借助Lucene检索工具把与暴发性关键词相关的微博文本合并形成一个文本文档,然后结合传统的TF-IDF方法摘取文档中的主题词。实验表明,当检测到的主题词达到八个甚至十个时,准确率和召回率的权衡值F-measure分别为0.87和0.84,其平均F-measure值比基于关联规则的方法提高了13.2%。其次,为了更准确地检测出话题中表达的主要观点,提出了一种基于互信息的观点词检测方法。以大连理工大学的情感词典为基础,训练情感词典,用改进的互信息方法计算主题词与情感词之间的关联程度,并以此来找到与主题词最相关的观点词。对比实验表明,以互信息理论为基础来计算主题词与观点词之间的关联程度,可以更准确的检测出话题中表达的主要观点,观点词检测的准确率和召回率分别为0.72和0.65,其综合评估指标F-measure的值为0.68,比传统的方法提高了约5%。最后在上述提出两种方法的基础之上,实现了一个可在线检测微博突发话题的系统。系统一方面采用了文章中提出的突现主题词检测方法和观点词检测方法,实现了突发话题的检测功能,验证了方法的有效性;另一方面实现了微博内容定位和微博内容搜索功能,使用户能够定位到与突发话题相关的具体微博。本文以微博文本内容为研究对象,提出了基于内容搜索的突现主题词检测方法和基于互信息的观点词检测方法,并且在这两种方法的基础上实现了一个在线的微博突发话题检测系统。本文的研究成果将有助于舆情监察用户更全面更直观的掌握最新的网络舆情,为微博的舆情监察工作带来了便利。
其他文献
风能,作为可再生能源,无穷无尽,清洁环保,已成为许多国家可持续发展战略的一个重要组成部分,因此,风力发电得到了迅速的发展。风电机组工作环境恶劣,长期受到正常和极端温度、降雨、积雪、沙尘、太阳辐射等环境因素的影响,各部件也必将不可避免随着运行时间的变化而老化,可靠性下降,导致故障发生,影响风电场的安全稳定。风力发电机作为风电机组故障率较高的部件,对其进行实时状态监测,及时发现故障征兆,确定合理的维护
人脸识别作为一种典型的生物特征鉴别方式,已经成为模式识别领域中一个重要的研究方向,具有广阔的应用前景。近年来移动互联网的迅速发展对人脸识别的应用也随之产生了新的需求
随着计算机互联网技术的发展,实时数据流成为数据信息中一种重要的数据形式,且已被广泛应用于网络流量控制、数据监测系统、互联网金融等领域。如何快速有效的从高速、大量的
目前,随着手机普及率的提高,加之社交网站、购物网站的普遍应用,手机注册的普遍性,用户手机号已成为商家广为利用的营销工具。随之而来的垃圾短信,不仅占用网络资源,干扰用户
分布式信源编码(Distributed Source Coding, DSC)主要研究多个信源的独立编码和联合解码。它的理论基础是Slepian-Wolf理论和Wyner-Ziv理论。分布式视频编码(Distributed Vi
智能电网的快速发展,使智能电表、量测系统等应用增加,从而使数据的规模和种类呈直线式增长,海量电网数据的安全存储问题成为制约智能电网发展的瓶颈。云存储技术可以使用虚拟化技术把物理资源整合成统一的存储资源,支持海量数据的存储,其具有数据处理量大、灵活性强和高可靠性等优点,可以解决海量电网数据的存储问题。但是使用云存储电网海量数据时,如何保证电网数据存储的完整性是智能电网云存储系统发展过程中面临的挑战,
无线射频识别RFID(Radio Frequency Identification)技术是一种非接触式自动识别技术,利用射频信号通过传递消息来实现识别。随着RFID技术的不断发展,安全和隐私问题受到人们越
随着Web2.0时代的到来,人们渐渐从信息接收者转变为信息创造者,信息分享也变得更加容易,人们在享受着互联网带来的便利的同时,也逐渐被信息过载问题所困扰。面对浩瀚的、令人
随着互联网高速发展,网络中的信息飞速增加更多的人参与到互联网中进行发言和互动交流为充分地分析和预测舆论走向和趋势,互联网舆情相关技术应运而生截止到2012年,中国网页总数
四点接触球轴承跑合装置作为一个测试卫星零部件的设备,主要用于测试控制力矩陀螺用四点接触球轴承,在轴承装入整机前需要对其进行跑合。轴承内部的配合和摩擦力矩是轴承的重要技术指标,而轴承内部的配合和摩擦力矩受到多种因素的影响,而这些影响需要通过分析测试设备的跑合数据得出结论。本课题主要描述四点接触球轴承真空跑合装置控制系统的设计与实现。本文首先论述了四点接触球轴承跑合装置的总体结构设计,给出了各个部件的