基于中心句语义相似度的信息检索方法研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:ApexLiuNck
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今时代信息爆炸式增长,用户如何从海量的数据里快速地查找到自己所需的信息显得至关重要。它不仅带来很多值得研究的学术问题,还催生了像百度、谷歌等以搜索引擎为主营业务的科技巨头,而搜索引擎的核心技术之一就是信息检索。文本信息检索研究的是如何从大规模文档集合中找出满足用户需求的文档的过程。其中的关键技术包括:计算查询与文档的匹配、按匹配程度给文档评分并排序。好的信息检索模型能把与查询主题相关的文档排在返回结果靠前的位置。传统信息检索模型可以看作是词项的精确匹配或相关匹配,这些模型检索效率高但是没有考虑词语的语义,从而会有查询与返回文档语义不匹配的问题。现代的神经排序模型利用深度神经网络训练得到查询和文档的语义表示,然后通过交互式编码或者余弦相似度计算来解决语义匹配的问题。最近,已有学者利用传统模型和神经排序模型的优点,提出将相关匹配和语义匹配相结合的信息检索方法,然而,他们使用文档中的所有句子来计算与查询的语义相似度,因此耗时长,代价高,同时,这些混合信息检索模型通需要多个超参数来调优,不够简洁和高效。针对以上问题,本文提出了一种信息检索方法和一种结合了该方法的检索框架:中心句语义相似度模型CSSS和混合模型检索框架XCSSS。本文设计了一种中心句语义相似度信息检索模型CSSS。首先,该模型提出使用一种滑动窗口机制来抽取候选文档的中心句;其次,为了节省计算时间,仅使用中心句而非文档的全部句子来计算文档和查询主题的语义相似度;最后,本文在四个文本检索会议(Text REtrieval Conference,简称TREC)数据集上进行对比实验来验证CSSS模型的有效性。实验表明CSSS模型的MAP值和P@20值相比传统信息模型均有了显著的提升。在使用相同的预训练语言模型和参数设置的情况下,本文进一步对比了在全部句子计算语义相似度的检索模型,实验结果表明,仅用文档中心句而不是文档的全部句子参与语义匹配计算的准确率更高。本文同时提出了一种改进的混合信息检索框架XCSSS。XCSSS用一种非线性组合的方式将相关匹配和语义匹配相结合。与其它线性结合的混合检索模型相比,由该框架产生的混合检索模型的超参数更少,调参所需的计算成本也更少。在经典概率检索模型的代表BM25和语言模型的代表DLM的基础上分别使用该框架,形成了两种改进的混合信息检索模型:BM25CSSs和DLMCSSS。本文也在四TREC数据集上进行一系列的实验来验证混合信息检索模型BM25CSSS和DLMCSSS的有效性。实验结果表明改进的混合模型BM25CSSS和DLMCSSS的MAP值和P@20相比它们各自的基线模型有了显著性提升。这两种改进的模型的检索性能也明显优于一些深度神经排序模型。相比同类型的结合了相同预训练语言模型的混合信息检索模型,本文提出的混合检索模型在保证检索性能的前提下具有更低的时间复杂度,从而能有效节省在预训练语言模型上语义计算的开销。实验又进一步对混合模型和中心句语义相似度模型的性能进行了比较,结果证实了结合了语义匹配和相关匹配的方法是更有效的。最后,本文分析了中心句个数对这两种改进的混合检索信息检索模型性能的影响。
其他文献
大脑是生物体的“领导中心”,支配着身体的各项活动。大脑接收并处理复杂信息的原因是神经元网络之间的连通与协调的电活动。为了掌握大脑处理信息并发送指令的过程,需要高分辨率技术来监测神经元的电活动。测量神经元电活动的传统方法有:电压钳技术、电流钳技术和膜片钳技术,具体方法是用玻璃毛细管拉制成电极,穿透细胞膜获得神经元电生理特性,理解其动作电位的机制。大脑中的神经元有上千亿,用以上传统方法的缺点是同时监测
学位
互联网的快速发展在给人们带来便利的同时,也给人们的生活带来诸多安全隐患,其中信息安全尤为重要。为提高传输信息的安全性,保护个人隐私,很多学者在从事隐写技术研究,它是利用载体的冗余,将秘密信息嵌入到载体中通过公共信道进行传输,避免第三方的怀疑,从而实现秘密信息的传递。图像是隐写常用的载体之一,传统的以图像为载体的隐写术都是以单张图像作为载体,但单张图像作为载体隐写容量有限。为适应实际需求,确保秘密信
学位
抗生素耐药形势严峻,抗生素发展遇到了前所未有的挑战。了解抗生素耐药作用机制对于有效跟踪耐药性传播、优化治疗方法以及进行新药物研发至关重要。大量关于抗生素耐药性研究成果存在于生物医学文献中,使用文本挖掘相关方法自动从文本中获取信息有效降低了知识获取成本并提高了工作效率。本文将抗生素耐药性信息抽取建模为生物医学事件抽取任务,以期从生物医学文本中自动获取抗生素耐药作用机制信息。生物医学事件抽取主要由生物
学位
随着大数据时代的到来,互联网图像资源迅猛增长,如何快速正确地从海量的图像数据中检索出用户所需的图像成为亟需解决的一大难题。在大规模图像检索的背景需求下,基于内容的图像检索技术利用图像自身的语义信息,摈弃以往繁杂的人工文本标注,提高了图像检索性能,但在基于内容的图像检索方法中,图像往往由高维的特征矢量表示,而这又带来了大规模图像特征存储量大,索引难等新问题。近年来,在大规模图像检索中引入哈希的检索方
学位
近年来,用户情感分析在个性化推荐系统中体现出越来越重要的地位,各种各样的垂直场景的移动应用极大丰富了人们社交、娱乐和学习的方式。通过手机拍照,然后配上一段合适的文案来分享和记录生活,更是成为了当代人们一种新的社交方式。基于拍照配文这一特定的场景中进行用户情感分析,能够提供更为精准的基于情感需求的个性化推荐服务。但目前针对拍照场景中的用户情感分析还较少,已有的图像描述生成任务是对进行照片内容客观的描
学位
建筑物三维模型是地球空间信息的重要组成部分,也是组成“数字城市”的关键所在,在诸如城市规划、三维导航、文化遗产保护等领域得到了广泛的应用。而随着激光雷达技术的不断发展,点云数据尤其是机载激光雷达扫描数据已经成为继矢量地图和影像数据之外的第三类重要的时空数据,其本身蕴含的信息具有二维地图和影像无可比拟的优越性。目前,根据建筑物点云数据进行建筑物三维重建是摄影测量、计算机图形学、计算机视觉和遥感社区中
学位
学习分析中学习者的学业成绩预测有利于教师进行教学决策,并采取教学干预以提升学生成绩。当前该领域主要是通过学习者的人口学信息和行为特征来预测学业成绩,忽略了文本数据所蕴含的情感与学业成绩之间的关系。因此,本文尝试利用学习情感进行学业成绩预测。具体而言,本文首先识别文本所蕴含的情感极性,然后从情感角度来预测学业成绩。为提升情感识别准确性,本文加入与学习行为相关的主题文本,包含“教师授课”、“获得证书”
学位
文本关键词抽取是从文本中把能代表该文本内容的词或短语抽取出来的一种自然语言处理技术,它是自然语言处理领域较为重要的一个研究方向,在信息检索、图书馆学、情报学等领域都有重要的实际应用价值。尤其是进入二十一世纪,随着移动互联网等信息技术的快速发展,文本类型的数据呈现出指数增长的态势。对于企业和一些组织而言,这些文本数据具有极大的潜在应用价值,然而如何快速理解、利用这些文本数据是当前企业面临的一个重大实
学位
随着自然语言处理的发展,开放领域的问答成为越来越重要的研讨课题,它基于用户的自然语言提问,从大批候选文本中精准地找到答案,而面向开放领域问答系统的机器阅读理解技术成为其中的一个热门研究方向。机器能够更准确的理解人类文本语言,从而去构建开放领域的问答系统、自动化阅读理解评价系统以及电子化答疑系统等。这对于学习分析领域的研究,辅助教师进行答疑、阅卷、学习行为干预,帮助学生进行成绩预测和更高效的学习有着
学位
虚拟学习社区角色分类旨在探究虚拟学习社区交互网络中不同类别的学习者在协作式知识构建网络中的行为特征和其所处位置对知识构建过程的推进作用。目前,以MOOC为主的异步式虚拟学习社区中,多数课程存在学习者众多,但学习者参与讨论式知识构建活动的活跃度不高的情况。现有的虚拟学习社区角色划分方法主要有:机器学习方法、内容分析方法、数学分析方法和以凝聚子群、中心性方法为主的社会网络分析方法。上述方法主要存在以下
学位