Twitter中重复消息的分析和处理

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户:lm198505050056
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Twitter已经成为微博中的代表性应用,但是通过分析发现twitter上的消息(推文)有很多完全一致或相似,这对后续对推文的分析和存储都带来很大的问题。为了处理这些内容完全一致或相似的消息(推文),针对推文特有的短文本的特点,基于规则处理完全一致的推文,采用simhash的方法来处理相似性的推文。实验采用实际抓取的240万条推文数据进行分析和处理,分别对中文和英文的推文重复情况进行了分析,实验结果发现重复的推文占总推文的10%左右。
其他文献
“听,冰冷的太阳照亮了夜空……”  看到这样的一句话,我们的第一反应往往就是:低级错误!因为,它明显违背了我们普遍的初级常识,而且这么多的低级错误综合到了一起,简直是一枝奇葩。  然而,技术领域中,很多的低级错误却不是这么容易发现的,有时甚至在我们一遍遍地梳理问题,一样样地使用高级工具分析之后,还是没有发现问题所在,直至将我们平庸的智商发挥到极致,最后才发现是一个“微不足道”的小失误,然后在一番廉
国家"包分制度"被"双向选择"和"自主择业"取代使得以往就业工作中,直接分配毕业生的辅导员也变成了为用人单位和毕业生牵针引线的一中介.由此,辅导员应因时俱变,把握双方特征
随着云计算技术的不断推进,云计算平台的发展逐渐呈现多元化趋势,云计算在教学方面的应用研究也成了人们关注的热点。本文从云计算辅助教学的视扇探讨了混合式学习实践的开展过
对均匀各向同性湍流中惯性颗粒所见被动标量的统计特性进行了数值模拟研究,探讨了颗粒惯性的差异对统计结果的影响.结果表明,颗粒所见流体标量的自相关特性随颗粒惯性的增加而单
在工程实践的基础上,就金属拱型波纹屋顶设计中的理论分析与计算方法、建筑构造以及工程设计中应注意的问题等进行了探讨.
三维集成电路(3D IC)带来了诸多的益处,譬如高带宽,低功耗,外形尺寸小。基于硅通孔的三维集成得到了行业的广泛采用。然而,硅通孔的制造过程引入了新的缺陷机制。一个失效的硅通孔
运营IT组织是个需要平衡首要性和紧迫性的挑战。通过部署健全的基础设施来满足当前需求并预测未来需求已经够难了,更何况硬件和软件问题还难免会导致业务中断并需要处理故障