论文部分内容阅读
随着互联网及信息产业尤其是智能移动终端的迅速发展,人们越来越离不开网络。网络具有实时、快速、开放等特点,从很大程度上改变和影响了人们的生活习惯和生活方式,人们从网络获取新闻,获取娱乐信息,获取专业咨询等等。由于技术的进步,科技的高速发展,信息的迅速膨胀,智能终端的价格越来越低廉,以及智能终端设备的不断完善和功能的增加,利用智能终端获取信息已成为一种主流的方式。当一个热点事件产生后,人们往往利用手持智能终端通过搜索引擎检索浏览事件的信息,并进行相互交流。当前热点事件研究很多是基于微博、人人、BBS、推特以及其他社交网络进行的。而这里准备使用智能移动终端在百度手机搜索引擎中的浏览和访问记录,来挖掘热点事件,以及观察热点事件对移动搜索流量的影响。我们希望通过热点事件挖掘系统能够从“事件”级别上了解用户使用百度手机搜索的变化情况。系统会获取搜索引擎日志中突发的检索词(query),以天为单位进行展现,并通过突发检索词聚类的结果来挖掘整个热点事件。本文的主要工作如下:首先,介绍了热点事件挖掘的研究背景和发展现状。其次,对基于热点事件挖掘系统进行了需求分析和详细设计。该部分的主要工作是,进行突发检索词获取,针对突发检索词的聚类进行详细设计,阐述突发检索词之间相似度如何计算,基于检索词相似实现突发检索词聚类。根据大数据处理技术从海量搜索引擎日志记录中获取总检索量及高频检索词。之后,使用突发检索词聚类结果对高频检索词进行召回,完成热点事件的挖掘。然后实现数据可视化工作。最后,对全文进行了总结,并对未来的工作进行了展望。