基于小型搜索引擎的中文问答系统的设计与实现

被引量 : 0次 | 上传用户:j19871010
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如今在互联网上获得各种信息已经是一件与生活息息相关的事情,然而用户经常会用到的传统搜索引擎有很多缺点,例如搜索引擎的基于关键字查询,并不能够很好地表明用户的查询意图,而且返回的查询结果是一大堆相关网页,包含很多无用的信息,用户很难快速、准确地找到自己所需要的信息。问答系统正是为了克服搜索引擎这些缺点而产生,它允许用户使用自然语言的形式进行提问,返回给用户的结果是简短、精确的答案,而不是大量相关的网页,所以问答系统的研究具有很大的实际意义。但是由于中文文字的特殊性和复杂性,中文信息处理技术有较大的难度,所以中文问答系统较国外来说还不够成熟,因此有必要对其进行深入的研究。本文主要致力于一个简单问答系统的完整功能的设计与实现。问答系统包括三个部分:问题分析、信息检索和答案抽取。虽然搜索引擎有其不足之处,但是搜索引擎的搜集文档功能是问答系统的关键技术。目前,有很多成熟大型的搜索引擎,例如谷歌、百度和有道等等,但是本文对搜索引擎的结构体系和实现方法进行了研究,在自己的实验环境下搭建了一个小型搜索引擎,“小型”不是指功能上的省略,而主要是指网页收集规模和存储空间的使用两个方面。搜索引擎的设计包括了三个子系统的详细设计:搜集子系统、索引建立子系统和检索子系统。其中包含的关键技术和算法:并行抓取技术、启发式搜集策略、镜像消除技术、高效率索引技术、相关度评价策略等等。在着力于信息检索模块的搜索引擎设计之外,本文对如何从信息检索得到的相关网页和文档中抽取出答案做了研究,即答案抽取模块。它是问答系统最为核心的模块之一,它的抽取方法好坏直接影响着问答系统性能的优劣。这里采取了一种基于语义依存树的相似度计算方法,结合句子的语义和句法结构来计算问句和候选答案句之间的相似度,通过比较相似度的高低来筛选出答案返回给用户。本文的实验采用TREC评测标准,实验中事实型问题的答案抽取平均MRR值为0.6915,定义型问题答案抽取MRR平均值为0.6524。实验表明,该基于小型搜索引擎的问答系统可以正常工作,并且该答案抽取方法有较高的MRR值,具有较高的答案抽取的准确度。
其他文献
目的:建立当归挥发油中藁本内酯的含量测定方法。方法:气相色谱-质谱法,HP5973气相色谱-质谱联用仪,HP-5(30m×0.25mm×0.25μm)毛细管柱,HP化学工作站,NIST谱库,HP7683自动进
目的:角膜溃疡的形成与MMPs诱导的角膜组织的过度溶解有关,本实验拟研究RARγ选择性激动剂CD437抑制IL-1β诱导的角膜基质角膜基质胶原降解的机制。方法:将兔角膜基质细胞分离培
氧化应激是导致糖尿病肾病(DN)的一个重要原因。上调抗氧化因子核因子相关因子2(Nrf2)可以延缓DN的病情进展。本研究旨在探讨Nrf2激动剂萝卜硫素(SFN)和小剂量蛋白酶体抑制剂
本研究以圣城家园字幕组制作的《老友记》双语字幕为例,探讨美国情景喜剧中幽默内容的网络字幕翻译。本文大体采取董海雅提出的分析框架,结合定性与定量分析,探讨了字幕翻译
利用有限元分析软件ANSYS建立桁架式门机的有限元模型,研究了铁木辛柯梁理论与欧拉-伯努利梁理论的差异,得到铁木辛柯梁理论与欧拉-伯努利梁理论的适用范围。本文对桁架式门
胰岛素抵抗是指外周靶器官对胰岛素作用的敏感性下降。目前认为,胰岛素抵抗不仅是2型糖尿病的发病基础,也是多种代谢性疾病如肥胖、代谢综合症的共同病理生理基础。研究表明游
Ti-Mo合金非蒸散型吸气材料是吸气剂领域内新研制出的一种具有高机械强度、大吸气量的功能材料,广泛应用于长寿命、高性能、强稳定性的电子真空器件当中。但由于其制备技术的
背景:人工髋关节置换术作为老年人(60岁以上)股骨颈骨折治疗方案,因其能早期下地恢复正常生活,并有效避免长期卧床并发症而受到广泛认可。但其术后中长期恢复状况及患者满意度却没
我国东部地区与西部地区间发展的极大反差是中国长期面临的问题之一,这一现状在一定程度上制约了中国经济社会持续健康有序的发展,因此,如何促进东西部地区间的均衡与协调发
在改革开放以后,我国的高等教育发展进入了一个飞速发展的时期,音乐教育的发展也进入了一个崭新的阶段,这体现在教学设计日趋合理化以及音乐种类的日益健全。可以说,每一种专