自动问答系统中基于WordNet的句子语义相似度研究

来源 :曲阜师范大学 | 被引量 : 0次 | 上传用户:maming821023
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为提高检索质量,人们提出了一种新的信息检索方式——自动问答系统。自动问答系统能够对用户提出的问题,快速简洁地用自然语言进行回答,是目前一个热门的研究方向,拥有很大的发展空间。自动问答系统的相关技术离不开自然语言处理,句子相似度计算就是其关键技术之一,算法的优劣对自动问答系统的性能有直接的影响。目前对句子相似度计算的研究有很多,其中,句子的语义相似度是研究的热点。本文的研究是自动问答系统中基于WordNet的句子语义相似度算法。WordNet是基于认知语言学构建的一个大型的英语词汇数据库,在自然语言处理、信息检索等领域应用广泛。词汇是句子组成的基本元素,句子的语义信息都蕴含在词汇语义中,WordNet将词汇的语义用概念表示,所以可以把基于WordNet的句子语义相似度算法的核心归结为概念语义相似度的计算。本文通过研究大量的文献及算法,总结分析了WordNet中影响概念语义相似度算法的因素及现有算法的不足,在此基础上基于WordNet的分类层次树提出了一种新的CP(Conditional Probabilities)加权方法,将一个概念出现的情况下另一个概念出现的概率(条件概率)作为衡量权重大小的参数,并把上、下位关系间的权重区分开来,使权重分配更加合理,并给出了概念语义相似度算法的改进模型。该模型以概念的信息内容参数为基础,不仅考虑了概念所处分类树的密度和深度,同时也将概念间路径的影响因素加入其中,进而提高了算法模型计算结果的精准度,同时将该模型应用到句子语义相似度算法中,改善句子语义相似度算法的性能。本文的主要工作有:首先,阐述了本文的研究背景及意义,并介绍了自动问答系统的国内外研究现状以及句子语义相似度算法、概念语义相似度算法的国内外研究现状。其次,简单介绍了自动问答系统的相关知识以及常用的句子相似度算法。再次,为更加方便的对基于WordNet的句子语义相似度算法进行研究,详细介绍了WordNet的内容、语义关系以及组织结构。根据WordNet的层次结构提出了新的加权方法并改进了算法模型,将改进的概念相似度算法模型应用到句子语义相似度算法中,并通过实验验证算法性能。最后,概括了本文主要的研究工作,并指出接下来需要解决的问题,以及今后的研究方向。
其他文献
随着我国“一带一路”倡议的不断推进和经济全球化的步伐加快,不同企业之间的市场环境、技术成果、投资手段等之间的竞争力度也越来越明显,同时也伴随着大量知识产权滥用问题
主观上欲将他人财物置于自己控制之下,就具有非法所有他人财物的故意.财物未过手不影响国家工作人员事实上对财物的支配权.赃款赃物的去向不影响受贿罪的认定.本文认为将2007
本文以高校学生为主要易受害特定群体为研究对象,具体分析高校学生在新型网络诈骗犯罪中的受害情况、受害原因,梳理校园新型电信网络诈骗犯罪的特点,从法律层面上提出有效开
小麦贮藏蛋白中的高、低分子量谷蛋白亚基是决定小麦面粉品质优劣的重要因素。野生二粒小麦(Triticum dicoccoides,AABB,2n=4x=28)是普通小麦基因组AABB的供体,具有较高的蛋白含量和丰富的遗传变异,是小麦品质改良的重要基因资源,因此对其谷蛋白亚基进行鉴定及其编码基因的分子克隆对于定向改良小麦品质以及了解贮藏蛋白基因家族结构、分子进化关系具有重要的意义。本研究利用十二烷基硫
本文介绍了国际工程承包项目领域联合体的概念、发展现状,从联合实施模式的法律关系入手,阐述了不同类型的联合体模式.围绕联合体协议关键条款风险进行了风险分析.
行政协议司法解释明确了符合四要素的PPP协议为有名行政协议,引发了学界和实务部门大量负面评价,本文以PPP的内涵出发,探究PPP协议的性质,以及相关方面的负面评价,发现行政协
学位
伴随着我国经济水平的不断提升以及社会改革力度的不断深入,各项社会体系的完善程度越来越高,特别是针对未成年人的保护,已经被社会各界人士所重视.一个国家是否能够长久的发
目前我国的民办高校主要包括两大类:一类是狭义的民办高校,还有一类是独立学院,这两类民办高校举办方与民办高校的法律关系主要受《民办教育促进法》和《民办总则》调整,《民