基于双向动态规划的微博信息查询算法研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:donny9707
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,国内外以Twitter、FaceBook、新浪微博、腾讯微博为代表的微博客类社交平台逐渐兴起,成为人们日常生活中重要的信息发布与获取平台。这类社交网络为人们提供了便捷的搜集发布信息的渠道以及高效的寻找志同道合朋友的平台。据统计,新浪微博自2009年8月成立以来,其注册用户已突破6亿人次,月活跃用户高达2.82亿,用户平均日发送微博达1亿多条。微博以极快的速度取代用户日常使用的各种信息获取工具,并渗透到用户生活的方方面面。微博用户在日常使用微博的过程中,不仅会收到各类官方媒体发布的信息,还会收到其关注的自媒体、大V发布的信息。信息来源渠道多信息数量大,用户往往疲于应对。目前,用户面对的主要矛盾是微博推送的海量信息与短暂的阅读时间之间的矛盾。如何在兼顾信息丰富性的基础上,降低信息的冗余度,为用户提供即丰富又精简的信息流成为当下亟需解决的问题。现有的微博信息检索算法往往更多的关注如何快速为用户呈现信息,而忽视信息的多样性,如EarlyBird算法、TI算法等。本文在微博信息快速呈现的基础上更多的关注微博信息的多样性,旨在为用户提供数量尽量精简同时兼顾多样性的微博信息集。本文根据微博数据的特点,将用户对多样化微博数据的需求抽象成多查询多样化问题。其中,用户个性化定制信息的需求通过多查询来体现,用户对低信息冗余度的需求通过多样化来体现。本文首先定义了多样性阈值λ。然后定义了微博间的coverλ关系,即微博与微博之间、微博与微博集之间、微博集合与微博集合之间的互相包含关系。通过微博之间coverλ关系的定义,我们只需要寻找到对微博全集构成coverλ关系的微博子集,即表示该子集在多样性阈值λ下可代表微博全集。本文将对多查询多样性问题的求解转化为求解可对微博全集构成coverλ关系的最小微博子集。该问题即被转化为一类求最优化的问题。接着,本文介绍了基于动态规划的微博查询算法用于寻找在多样化阈值λ条件下可覆盖微博全集的最小微博子集,并对其进行了有效性证明、时间复杂度和空间复杂度计算。然后,本文通过改进基于动态规划的微博查询算法的递归方向和问题子结构,提出了基于双向动态规划的微博查询算法,理论上减少了中间状态的数量,降低了算法运行的时间。本文利用归纳法证明了基于双向动态规划的微博查询算法的有效性,并且对其时间复杂度和空间复杂度进行了分析。最后,本文设计了实验分别实现了基于动态规划的微博查询算法和基于双向动态规划的微博查询算法。在相同的数据源以及多样性阈值λ下,通过统计这两种算法运行过程中计算的状态量以及算法运行的时间,从空间复杂度和时间复杂度这两个角度对两种算法进行了全方位的比较。本文实验表明,基于双向动态规划的微博查询算法具有更好的时间效率。对于后续的研究工作,本文从流数据处理、分布式数据处理等方面提出了设想。
其他文献
北斗卫星导航定位系统自2012年正式提供区域服务以来连续稳定运行,在亚太地区的服务性能已满足设计指标要求。随着北斗系统建设工作的进一步开展,系统服务性能也逐步实现了稳
《西南联大组歌——天降大任》由王晓岭老师、李昕老师等国内知名作曲家联合云南本土的优秀词曲作家共同编创而成,完成于2018年。作为云南师范大学立项的云南省委宣传部文艺精品重点扶持项目,在为纪念西南联合大学在昆建校暨云南师范大学建校80周年活动中,于云南师范大学演播厅成功举办首演,引来社会各界的一致好评。《西南联大组歌》以音乐会的演出形式呈现西南联大的历史,将观众的记忆带回了那段战火纷飞的年代。其中,
学位
泡沫金属由于其具有低密度、高强度以及极大的单位体积比表面积等优点,得到很广泛的应用,是一种多功能多用途的新型材料。泡沫金属材料在强化换热领域内的应用只是众多领域的
本文主要运用分支理论研究一类带有食饵收获的Leslie-Gower捕食模型的种群动力学行为.本文的结构如下:首先,讨论ODE模型中非负平衡点的存在性、稳定性,以及由正平衡点产生的H
人脸识别以其无侵犯性的采集方式,契合人类“以貌取人”的认知惯性,通过简单的采集设备快速、便捷的进行实时化跟踪识别的优势在众多生物识别技术中得到了人们的关注与青睐。
在粒子物理学中,强子是夸克由强相互作用结合在一起的复合粒子,它是目前人类能够分割出来、观测到具有内部结构的最小单元。强子谱作为强子结构的可观测量,是探索物质微观结
随着人类社会对能源的消耗和需求日益增加,传统的化石能源将会逐渐退出历史的舞台,核能的发现则必将在人类能源历史长河中书写出浓墨重彩的一笔。作为一种清洁燃料,核能污染
在中国经济的高速发展过程中,电子行业对其贡献不可小觑,而PCB作为电子行业的重要载体,近年来,中国市场电子企业为了满足市场的需求都在迅速扩建中,与此同时,成本的压力也在
图像插值,或称图像放大,是指由低分辨率图像获取高分辨率的图像,在本质上是通过已知像素估算出未知像素。图像插值技术能够在一定条件下保持丰富的纹理信息和锐利的边缘。图
双目立体视觉系统是计算机视觉领域的一项核心研究内容,其在三维测量、机器人导航、医学成像、智能控制、虚拟现实等方面有广泛的应用。双目立体视觉实质上是从两个不同的角