融合用户兴趣和混合统计的微博检索模型研究

来源 :河北大学 | 被引量 : 0次 | 上传用户:by090706
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中国互联网络信息中心发布的第42次《中国互联网络发展状况统计报告》显示:截止2018年6月,中国微博用户规模已达3.37亿人,在整体网民数中微博用户数占比已达42.1%。巨大的用户数量使微博逐渐成为人们获取和分享信息的重要途径。为从庞大的微博数据中获取有效信息,微博检索已成为微博服务的重要组成部分。微博检索虽属文本检索范畴,但却不同于传统文本检索,两者的区别主要体现在排序原则和搜索数据两个方面。在排序原则方面,微博检索除要考虑查询与文档的内容相似度外,还应考虑其它因素,如时间、兴趣、博文质量等;在搜索数据方面,微博检索面向的是微博文档,其典型特点是长度较短、内容稀疏。
  结合微博检索的特点,本文在查询似然模型的基础上提出一个融合用户兴趣和混合估计的微博检索模型。新模型主要对传统查询似然模型中的文档先验概率和文档语言模型估计进行改进,具体工作体现在两个方面:(1)在文档先验概率方面,首先通过量化用户对微博的兴趣行为得到用户的兴趣博文库,然后通过计算用户兴趣博文库和微博之间的相似度对微博集中每条微博先验概率的计算进行改进,最终使符合用户兴趣的微博具有较高的先验概率,以在一定程度上满足用户的个性化检索需求。(2)在文档语言模型估计方面,首先基于微博的文本内容得到微博间内容相关度,然后通过量化微博所属用户间的交互行为得到用户间交互度,最后混合微博内容相关度和用户间交互度得到微博的相关文档集,并将其作为平滑项对微博文档语言模型进行估计,以在一定程度上缓解微博稀疏性对微博检索造成的影响。
  由于目前权威测试集难以满足实验需求,本文采用从新浪微博爬取的真实数据对研究内容的有效性进行验证。首先对爬取的661845条微博原始数据进行清洗和预处理,并依据规范测试集构建本文的测试集;然后对不同微博检索模型的检索性能进行比较。实验结果表明:与本文的阶段性工作相比,本文的总体工作在P@k和MRR两个指标上均较优;与当前主流的微博检索模型相比,本文提出的微博检索模型在P@k和MRR两个指标上均较优。
其他文献
目的:  细胞焦亡(Pyroptosis)是一种新发现的由急性脑损伤引起的细胞程序性死亡方式,其发生能激活并促进炎性因子IL-1β,IL-6和IL-18的激活和分泌,同时焦亡的细胞细胞膜在破裂前具有明显的气泡特点并释放焦亡小体。之前已有研究表明石斛碱在体外实验中对OGD/R引起的海马神经元细胞损伤具有一定的神经保护作用,但其机制不明。  本课题将研究石斛碱是否能通过减少神经元焦亡和降低炎症反应的方
学位
根据文献资料,该研究选用高表达组胺H受体的小鼠垂体细胞瘤AtT-20作为研究对象,观察了H受体激动剂与拮抗剂引起的反应,在此基础上,探讨了激动组胺H受体在AtT-20细胞内的信号转导途径.该研究首次以直观和定量的实验依据提出,在富含组胺H受体的AtT-20细胞上激动H受体后可引起细胞内钙的升高,是由G蛋白介导的,既有 细胞内的钙释放(主要通过IP受体系统介导),又有细胞外的钙内流,后者不是由于受体
学位
随着全球经济化发展,供应链上企业内外部环境变得更加复杂,为更好地实现自身发展,企业选择信任伙伴进行合作,但由于供应链网络中节点企业众多,导致信任危机频发,需进一步研究供应链信任。基于复杂网络来审视供应链信任网络中存在的问题,构建供应链信任网络演化模型,揭示供应链内部信任网络演化规律,探寻供应链信任管理方法。  本文在概述供应链信任的国内外研究现状的基础上,分析不断丰富的供应链信任知识体系,指出当前
金融行业的发展能够对社会经济的发展起到良好的推动作用。商业银行是金融机构中最为重要的一项组成部分,商业银行的运营健康对经济的良性发展起到了决定性的作用。近年来,我国的商业银行业务量增长迅速,各类风险案件层出不穷,凸显了商业银行风险内部控制制度的薄弱与无力。一套行之有效的内控制度,可以帮助商业银行防范特定风险,确保商业银行的稳定运行。  本文在美国COSO委员所提出的内部控制制度基础上,从监督、风险
学位
互联网技术给人类带来了颠覆性变化。信息互通速度极大提升,可获信息量增加,获取成本下降,相比传统的线下沟通协作,互联网提供了便捷有效的协作路径。传统的互联网属于中心化技术,主体间的有效协作需要依赖于第三方建立信任,目前交互数据都存储于互联网平台上,用户数据的所有权之争已经开始显现,互联网平台是黑客攻击的重点目标,数据一旦泄露就会影响广大用户。极端区块链属于去中心化技术,虽然协作不必依赖于第三方,但过
本文从当下互联网以及社交媒体对大众消费影响的角度出发,基于社交影响和社交学习理论,采用模型和数值分析相结合的方法,主要围绕预售模式研究了社交影响和社交学习下的消费者购买行为,以及企业的预售策略。具体包含以下三个方面内容:  首先本文分别建立社交影响下的预售模型和社交学习下的预售模型,阐述了这两个因素各自对消费者购买行为的作用,以及企业的决策问题。在考虑社交影响的模型中,本文把市场中的消费者分为势利
学位
随着互联网技术的快速发展,在线客服正逐渐取代传统电话客服成为即时服务的主流。带来诸多便利的同时,由于其特有的一对多的服务模式特点,以及回复延迟容忍空间下,客服人员可以依据繁忙程度自主选择不同的服务速率,使得对于传统客服中心的研究无法直接应用。多任务工作下,如何在满足服务水平的要求下,对顾客咨询进行一定的负载分配及人力需求安排以达到最优结果,在线客服的运营带来了新的困难与挑战。  论文首先构建了包含
学位
伴随着快递行业的迅速发展,送货上门的服务模式已不能完全满足现有“网购用户”的配送需求,自提点取货的运营模式应运而生。针对自提点选址问题,要在满足客户需求、客户距离、站点容量等约束下实现模型总成本最低,存在一定规划难度。因此自提点的选址问题具有重要的研究意义。  首先根据客户现有取货需求,构建基础选址模型。由于基础模型中未考虑客户送货上门的选择,及自提点吸引力对客户选择的影响,因此模型存在局限性。然
学位
随着可持续性的理念越来越普遍,很多企业争相通过‘绿色’标签来吸引消费者的眼球。然而,在倡导环境友好的大背景下,许多未经证实的‘绿色’(有机或可持续)产品投入到市场中的现象随处可见:大众通过零售商出售可持续排放指标夸大的汽车、沃尔玛出售将普通猪肉夸大为‘绿色’的猪肉等。因此,对制造商产品可持续夸大的行为进行有效的约束是必要的。本文主要研究制造商产品可持续水平夸大问题对供应链的影响,并从第三方政府部门
随着互联网技术的发展,一种新的电子商务模式O2O应运而生,并迅猛蔓延至商业经济的每个角落。在这种态势下,传统产业纷纷转型升级,特别是在零售业与本地生活行业表现明显。O2O模式融合线上信息搜索与线下体验服务等优势,能够实现渗透率的快速提升,其运作过程需要平衡品牌商、线下商家、O2O电商平台及消费者等多方关系,因此其不仅是一种新兴的电子商务模式,更是一种供应链结构。虽然O2O实践正在如火如荼的展开,但
学位