面向自然语言查询的知识搜索关键技术研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:lihuihui1986712
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网上信息的爆炸式增长,人们对信息检索的需求越来越大。如何快速、精确、可靠地从大量的、结构多样化的信息中搜索到用户需要的信息,成为一个热门的迫切需要解决的课题。以Google为首的传统的搜索引擎主要是基于关键词匹配的一种信息检索技术,它从互联网中以一定的策略搜集、爬取信息,对信息进行解析、索引,为用户提供检索服务。传统搜索引擎存在搜索接口不友好、搜索过程复杂、返回信息量大、返回内容针对性不强等问题。基于传统搜索引擎存在的不足,面向自然语言查询的知识搜索系统被提出。本文主要研究知识搜索系统中两个关键技术:基于知识图谱的知识搜索和基于社区问答的知识搜索。针对事实性的问题,本文提供了基于结构化的知识图谱数据的知识搜索服务。这种检索模式存在检索语法复杂、数据结构复杂等问题。因此,如何将无结构化的自然语句映射到结构化查询语句是该模块的核心。本文首先在从自然表达语句到知识库中的实体和关系的映射上,提出了基于层次化实体映射和基于外部数据集的关系映射算法。同时,本文还提出了基于手工定义模板和基于语义关系抽取的自动生成算法,实现从无结构化自然查询语句到结构化查询语句之间的映射。针对非事实性的问题,本文提供了基于无结构化的社区问答数据的知识搜索服务。本文从基于问题跟问题相似度匹配和问题跟答案相似度匹配两个方向解决问题。在问题跟问题相似度匹配模型中,我们提出改进的WMD算法,该算法根据社区问答数据的特性对原始的WMD算法进行改进,算法的结果比传统的BM25算法以及原始的WMD算法在性能上都有了较大提高。在问题与答案相似度匹配模型中,当前学术界主要的思想是通过深度学习在NLP领域的应用来比较两个句子或者段落的语义相似度,本文在这些模型的基础上,考虑问题和答案在数据集上的共现特征,提高了模型在处理答案简短、关键词与问题语义不匹配等情况下性能低下的问题。
其他文献
采用不同质量浓度壳聚糖溶液处理大豆种子并进行萌发和盆栽实验.测定了种子的发芽率及幼苗的株高、鲜重、干重和根长等,并对胚乳中α-淀粉酶活性及幼苗叶绿素的含量和根系活
文章阐述建筑工地现场防雷保护的重要性,对建筑工地现场防雷装置常见的通病进行分析,并介绍防雷装置的组成及工地现场防雷的具体做法,就防雷装置接地电阻进行研究,通过对建筑
利用鉴定番木瓜雄性性别的特异基因片段(1001bp)的引物和鉴定番木瓜雄性、两性性别的特异基因片段(225bp)的引物,分别以5个品种番木瓜的3种性别植株的总DNA为模板进行多重PCR扩增,
新闻记者提高自身专业素养可以有更广阔的发展平台。在实际工作中,新闻记者要做好采访及编辑工作,如果做到两者的完美结合,可以给新闻传播带来一定的积极影响。
介绍了银川市兴庆区城乡生态环境建设现状,总结了其采取的措施,主要体现在规划建绿、拆墙透绿、治裸增绿、拆建还绿、改造扩绿、乡村添绿、依法治绿等方面,为银川市全面加快
阵发性心动过速是以突然发生、突然停止为特点的节律快而均齐或比较均齐的主动性异位心律,属中医心悸、怔忡范畴。在北方发病率较高,诊断虽然明确,但治疗却没有彻底根治的理
目的探讨咽喉部结核的临床表现、组织病理学特点、治疗效果及预后,为诊断和治疗提供借鉴。方法对34例咽喉部结核患者均在电子喉镜下行病理组织活检及痰涂片以确诊,按抗结核药
随着移动互联网的发展与手持智能终端的普及,海量带有用户时空属性的数据被生成.理解这些数据表达的语义信息对推测用户需求,分析用户偏好,进而提供精准时空推荐和预测服务具
全球化背景下,国家形象的重要性与日俱增。本文以一档央视文化类热播节目《绿水青山看中国》为例,从妙趣横生的竞赛形式、视角独特的解读评说等方面来探析文化类节目中国家形
利用海南橡胶树多主棒孢培养液,通过透析、冷冻干燥浓缩、硫酸铵沉淀以及离子交换层析等方法对粗毒素进行了浓缩与提纯,获得的粗毒素通过生物测定和聚丙烯酰胺凝胶电泳验证。