论文部分内容阅读
微博作为近年来急速流行起来的网络应用,正在快速深入每个人的日常生活中。由于其不仅可以通过电脑而且可以通过手机等移动便携设备进行内容发布,所以其具有诸如实时性,碎片性等特点。同时微博博主可以有关注和被关注的关系,微博内容也有评论转发等形式,故也体现出其互动性和灵活性。本文基于微博以上特点做了数据提取和话题检测两方面工作。传统的网络文本数据提取一般是利用图遍历的思想通过网络爬虫搜集信息,本文在此基础上研究了使用微博开放API接口进行数据获取的方法。首先着重分析了OAuth2.0认证原理,然后研究了获取认证的流程,此认证的获取是利用开放接口的前提条件,目的是让第三方应用可以接入服务方的数据且不泄露个人信息,最后利用新浪微博的开放接口实现数据的提取并将获取的数据以更高效的JSON格式保存,实验证明此方法相比传统方法处理效率更高,在同等数据量前提下文件大小更小。话题检测在数据挖掘领域已经得到了深入的研究,其可以从分散的多个文本文件中提取出少量的不同主题,从而可以更清晰明了地展现数据的整体概况。在进行话题检测时传统的基于空间向量模型建模方法容易造成语义丢失的问题,于是本文改进现有的特征权重和相似度计算方法,采用与语义相结合的方式,同时针对微博内容实时性的特点,在前期建模阶段添加时间参数以保证话题检测的正确性,传统的检测方法主要是针对无结构文本的分析,本文中考虑到微博转发功能的结构化特性,最后选取改进的单遍聚类Single-Pass方法实现话题检测。通过比较实验证明本文方法在话题检测标准的漏检率,错检率等上取得了较好的效果。