基于倒排索引的微博话题检测

被引量 : 0次 | 上传用户:milin1215
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着微博这种新兴的社交平台迅速发展,越来越多的用户使用,并且在上面发布事件信息,由于微博的传播速度非常迅速,对新闻传播的意义非常大,从微博数据中发现热点事件有着极大的需求。但是由于微博数据拥有规模大、噪声多、文本较短等特点,给话题检测与跟踪带来了巨大的挑战。本文在别人研究关于话题检测与跟踪的基础上,分析传统的话题检测与跟踪算法的缺点,提出一个基于倒排索引的方法来提高算法的处理速度,但不降低算法的精度。通过对微博数据分析,人工建立一些规则对微博数据进行噪声处理。然后对数据建立倒排索引,并进行话题检测与跟踪。对于每天获取的新的事件,根据事件的熵值和用户数量对事件进行排序,将列表前20的事件与之前的旧事件进行合并。在合并之前,利用基于衰老理论的方法来得到需要合并的旧事件集合。本文同时分析了AP聚类算法在微博数据集上的结果。为了验证算法效率的提升,本文通过在不同级别的数据集上对比传统的SINGLE-PASS算法和基于倒排索引的改进算法的处理时间,通过实验对比得知,基于倒排索引改进的算法能达到6-7倍的速度提升,性能远远高于传统的文本聚类算法。由于实验没有标准的语料集合,本文通过人工标注的方式获得了一个测试集合,测试集合包含26个事件,共计2817篇文档。通过在测试集合上面的实验分析,本文提出的算法能够获得较好的精度。本文还对比了不同的权重计算方式在微博数据上面的结果。同时还对比了AP聚类算法和SINGLE-PASS算法在微博数据集上的结果。由于微博数据量比较大,文本聚类算法会得出很多用户不感兴趣的事件,本文通过计算事件的熵值和参与事件的用户数量对事件进行排序。通过对比发现,这种方法能够将用户感兴趣的话题排在事件列表前面。结合本文提出的算法,设计了一个微博话题检测系统,用于发现微博数据中产生的重大事件。
其他文献
随着中国城市化的深入以及中学教育的不断改革发展,校园建筑扩建需求不断加大,改建、扩建项目日益增多。这些建设项目与日益严重的土地资源问题相互制约,尤其是在一些大城市中,中
随着汽车保有量的不断增加,每年世界各国由于驾驶员因素而导致的道路交通事故死亡的人数不断上升。大量分析表明是,在驾驶员群体中存在着一类具有“事故倾向性”的人群,在相同的
折射衬度是衍射增强成像(diffraction enhanced imaging,DEI)中的一种重要衬度,在弱吸收物质的成像中,折射衬度远超过吸收衬度。折射衬度应用的关键是提取出样品的折射信息,
道路运输是综合运输体系的重要组成部分,是国民经济的基础性和服务性产业,大力发展道路运输业,对于促进国民经济发展,活跃城乡商品流通,方便人民群众生产生活,扩大社会就业具有重要
近年来,煤矿瓦斯安全生产事故频发,特别是随着开采深度的加大导致开采条件更趋复杂,瓦斯灾害的威胁越加严重,煤矿瓦斯安全生产事故已然成为煤炭行业可持续发展的制约因素,现有的安
采油厂作为油气田开发过程中的主体单位其工作量与任务复杂性不言而喻。其中在安全生产过程中常常扮演着甲方管理者与技术决策者的双重身份。所以只有全面提升管理水平与技术
在沈从文的创作生涯中,他留下了大量丰富生动的小说作品,如我们熟知的《边城》《萧萧》等,除了这类比较经典的作品外,沈从文早期的小说也很有特色,大多数描绘的是贫困交加、得不到
《乌姆·萨阿德》是巴勒斯坦抵抗文学家格桑·卡纳法尼“三部曲”之一。小说以“六五战争”为背景,描写了一位生活在黎巴嫩难民营里的巴勒斯坦妇女——乌姆·萨阿德。自1948
文章首先分析了小学语文口语交际教学中存在的问题,然后提出了小学语文口语交际教学中的对策,包括选择适当的话题,激发学生的沟通欲望;分组讨论,突出学生的主体地位;大力开展
通过对节约型城市园林绿化设计含义和建设目标的论述与浅析,引发对节约型城市园林绿化设计的思考,从而得出对于节约型城市园林绿化的设计方法,最大化发挥节约型城市园林绿地