基于排序学习和查询重构的全文检索模型研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:fairboy2000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数字信息的爆炸式增长,我们迫切需要采用更为高效的方法来查找所需要的信息,这种情况不仅仅是体现在互联网领域中,由于台式计算机的数据存储量也随着硬盘存储能力的提高而激增,这种情况也出现在政府,学校,大型公司的文档管理事务中。现如今这些机构或公司一般是通过数据库中集成的like语句对文档进行搜索,或者是在全文检索工具库比如Lucene的基础上开发出一套知识库管理系统。然而这些方式所提供的搜索功能都是基于关键字的简单匹配,搜索效果并不理想。通过研究信息检索技术的发展进程,发现通过查询扩展或者深度挖掘文本语义的方法来提升检索效果较为有效,于是本文提出了一种将排序学习和查询重构相结合的全文信息检索模型ListGate。论文的主要研究工作如下:(1)论文引入word2vec和LDA这两种能够挖掘文本语义的方法,其中word2vec用于在词向量空间中对原始查询进行重构,将重构查询作为原始查询的扩展,而LDA产生的主题特征被融入到排序学习方法中提升评分函数的效果,同时为了解决查询重构中存在的主题偏移问题,原始查询和重构查询之间的主题偏移可以通过它们在word2vec和LDA生成的语义空间中的距离进行衡量。(2)通过对List Net排序学习算法的改进,提出了不能考虑主题偏移的ListSum模型,然后通过分析ListSum模型的不足进一步提出了能够考虑主题偏移ListGate模型,并给出ListGate模型中使用到的TFIDF,BM25,语言模型,LDA主题模型评分规则的定义,查询重构的算法以及原始查询和重构查询之间主题偏移特征的计算方法。(3)推导出ListGate中神经网络权值在随机梯度下降方法下的权值更新公式,并使用Java语言实现了List Gate模型的学习过程,然后在数据集上进行了实验。实验结果表明,加入了LDA特征的评分网络比没有加入LDA特征的评分网络最后产生的评分函数表现要好,同时引入了主题偏移特征后产生的评分函数效果比直接将原始查询和重构查询的得分线性相加的效果要好。
其他文献
里氏木霉(Trichoderma reesei)是重要的纤维素酶产生菌,也是用于研究丝状真菌纤维素酶合成调控机制的常用菌株,其中的纤维素酶合成调控机理已获得了较充分的认识。Micro RNA(
创业能够有效地刺激经济增长,保障就业率,是社会可持续发展的重要推动力。促进大学生高质量创业成为国家重要的战略举措。近年来,各高校在创新创业教育方面有巨大的投入,但实际选择创业的大学生数量持续保持在低位,学生的创业热情较为低迷。如火如荼的创新创业教育是否发挥了应有的作用?学生的创业意向是否因创业教育而提高?如何鼓励大学生创业?这些问题成为了社会关注的焦点。学界在创业意向领域的研究得到越来越多的关注,
本文利用中国家庭追踪调查(CFPS)2010年数据研究了义务教育阶段家庭课外教育支出需求的决定因素以及对学生学习成绩的影响,从而对课外教育支出的效率及公平性效果进行分析。
目标跟踪技术是机器视觉领域的主流,智能化时代正在飞快的向我们靠近,包括人机智能交互、辅助医疗诊断、安全监控和国防军事等领域不断凸显其应用价值,成为继图像处理及模式
当今,随着先进科学技术的不断涌现,人们的需求不断增加,人脸识别以其友好性、直接性、快捷性等独特方面又成为学者们研究的重点。而人脸检测与跟踪技术作为人脸识别的关键步
视频目标跟踪,作为当今社会的前沿技术,在计算机视觉领域占有重要的地位,经过多年的发展,已经在国防、医疗、人工智能、视频监控等方面有着广阔的应用前景。传统的目标跟踪算
目的:检测多囊卵巢综合征(PCOS)痰湿证患者的血清、卵泡液和颗粒细胞中microRNA-183/200/223的表达,来筛选PCOS痰湿证的生物标志物,为其中医证候诊断的标准化提供理论依据。方法:收集2018年1月到2019年1月期间,就诊于山东中医药大学附属医院,年龄在20-37岁之间的不孕症女性患者,行IVF或ICSI助孕治疗。40例PCOS(PCOS痰湿组20例和PCOS非痰湿组20例)和
微博作为一种新兴的网络交流媒体,自诞生以来就受到了广大网络用户的追捧,成为广大网民表达自身意愿的重要平台之一。微博平台具有灵活便捷的特性,这些特性为网民参与交流带
随着互联网技术和移动定位技术的快速发展,基于位置的服务在各个生产环节内得到了普遍的使用,特别是最近几年各种商业的LBS产品不断涌现,在丰富了用户的日常生活的同时也带动
图的k-路顶点理论在无线传感器网络和交通控制领域都有很重要的应用。近年来这一课题得到了国内外越来越多的学者广泛的研究。给定一个图G和一个正整数k,如果G中每一条顶点个