基于用户行为挖掘的搜索优化研究

被引量 : 0次 | 上传用户:mqs129977
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文以web电子书城信息检索平台为项目背景,首先通过潜在狄利克雷分布(LDA)的过程对电子书文档进行主题挖掘,从而将电子书-标签文本转变为电子书-主题分布及主题-特征词分布。进一步通过用户在电子书城的一些浏览行为-购买、收藏、分享、评论、浏览等行为,结合该行为所涉及的电子书主题的概率分布情况,通过本文提出的用户偏好量化算法(UPMA)计算出用户在各主题之上的兴趣分布。由于用户的行为次数没有限制,每次行为都会使原有的用户偏好权重增加。UPMA算法保证了,在不断累加偏好权重的情况下,保持最终结果的收敛性。本文搜索优化效果是通过检索结果的重排序来体现,排序环节的评分依据查询与文档相似度分值与用户兴趣匹配度的调和平均值(CIRA)算法。本文源于实验室与某企业的合作项目,以该企业书城检索系统为背景。主要完成了以下工作:一、调研国内外个性化搜索、用户建模、主题挖掘技术的研究现状。二、运用LDA方法对电子书文档(标签文本)进行主题挖掘,建立电子书-主题分布模型。三、基于用户在书城中的行为;结合电子书-主题分布,提出UPMA算法;通过该算法,可以输出量化的户兴趣偏好度,即用户带权兴趣向量。在重排序算法设计中,采用查询-文档相似度与文档主题-用户偏好相似度的调和平均值。四、在系统设计与实现方面,采用Solr作为搜索基础框架,分析了Solr的架构,给出了Solr的关键配置,通过Thrift远程过程调用及Http访问,使扩展之后的Solr能够对外提供服务。
其他文献
目的回顾487例牙种植患者临床病例资料,对其进行统计对比性分析,总结近4年来我院对种植治疗患者的病例分析、手术方式及出现种植体脱落的相关因素。方法随机选取2006年2月5日
安溪茶叶市场发展势头良好,但也存在一些不足和困难。如过渡开发、茶园面积过大、产品科技含量低、综合利用不足、地区品牌单一、欧盟茶叶进口检验标准的提高、日本的茶叶检
智能家居系统以家庭自动化、网络化和信息化为特征已经成为了物联网应用领域的研究热点之一。针对智能家居系统中多种通信技术之间互联的困扰,本文对系统中的核心组网设备--家
健身俱乐部是随着人们消费水平不断快速增长形势下应运而生的健身服务机构,它是全民体育的补充,是满足人们健康需求的重要组成部分。然而,日渐兴起的健身俱乐部在诸多方面存
乡村旅游作为旅游业的重要组成部分,随着我国经济社会发展而越来越受到重视,特别是其在推动农村发展和促进农民增收等方面发挥了十分重要的作用。然而,需要明确的是,乡村旅游
我国工读学校曾在教育和矫治不良少年的事业中发挥过重要作用,但在社会转型时期与未成年人犯罪率居高不下不相协调的是工读学校却大幅度萎缩。工读学校的生存和发展面临着法
《歧路灯》自20世纪20年代正式出版后,受到了学界的重视,虽然毁誉不一,但随着研究的深入,其成就与价值日益为人们所肯定。《歧路灯》研究九十年来大致经历了三个阶段,其状况
我国在社会转型期和经济全球化的进程中,组织上至管理者下到员工普遍承受着巨大的压力。如何有效地开展工作压力管理,使员工正确地应对压力,适应和缓解压力,这些已经成为组织必须
英国牛津大学网络学院教授维克托·迈尔-舍恩伯格和数据编辑肯尼思·库克耶合著了《大数据时代:生活、工作与思维的大变革》(Big Data: ARevolution ThatWill Transform How We
目的寻找小儿脑瘫综合治疗的方法。方法对本院住院脑瘫患儿的临床资料进行综合分析。结果治疗总有效率96.56%。结论对小儿脑瘫施行药物治疗与康复训练相结合,能大大提高患儿