事实型中文问答系统中片段检索方法的研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:nonomad
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,问答系统作为一种新型的智能化的信息检索形式,作为一种更高效、更人性化的搜索引擎,已经成为信息检索和自然语言处理领域中重要研究方向之一。信息检索部分是整个问答系统中承前启后的重要环节,其性能的优劣直接关系到答案提取能否有效地进行。目前大部分的片段检索方法都是基于词汇表面形式的匹配,而这种方法通常会造成词语间重要的语义关系的丢失,也是导致一些并不包含答案的片段呈假阳性的重要原因之一。假阳性即指一些不相关的片段与正确片段一样包含同样的问题词,但词之间的关系却与问题大不相同。本文将自然语言处理中浅层语义分析的相关技术引入到片段检索中,提出了一种基于句法依存关系的片段检索方法,旨在更好地反映问题与候选片段在语义上的相似度。对于长度较短的问题,增加了同义词、缩略词扩展和基于依存关系的关键字扩展策略,以提高检索召回率。同时,本文的基于句法依存关系的片段检索方法还能够与同义词、缩略词扩展相结合,使其在一定程度上实现了关键字的模糊匹配。本文通过两部分实验对不同的片段检索方法及其与关键字扩展结合后的性能进行了客观评测。实验结果表明,与简单基于词汇匹配的方法相比,本文基于句法依存关系的片段检索方法在结果准确性和排序方面都有较大的提高。
其他文献
网格将整个互联网整合成一台超级计算机,实现各种资源的全面共享,可求解资源消耗大、计算复杂度高、在传统技术下无法有效解决的问题。网格系统需要监控各组件的运行状态以及
苛刻环境通信系统蕴藏着巨大的潜在应用价值,抗电磁干扰机制与算法是众多应用的核心支撑技术。为了提高系统在恶劣环境中的通信能力,本研究拟通过冗余和低电压差分方法为抗电磁
位置服务作为移动互联网时代的基础服务,在人们的日常生活中扮演着越来越重要的角色,据统计将近80%的应用与位置服务有关。位置服务中移动用户需要与位置服务提供商共享其位
运用语义万维网(Semantic Web)需要对传统的网络资源进行一些具有一定语义的标注。目前建立用于标注的本体(Ontology)是比较困难的。为了降低技术难度可以用一些具有结构化信息的
随着网络的发展及个人电脑的普及,越来越多的信息被发布到因特网上。Web信息门类齐全、数据量庞大,几乎无所不包,然而面对如此庞大的信息海洋,用户关心的只是其中很小的一部
为了确保网络时代的信息安全,国际上提出了基于公钥基础设施(PKI, Public Key Infrastructure)作为标准的信息安全体系结构,现己被普遍采用。在PKI中,最关键的实体是数字证书
随着Internet信息的迅速增长,Deep Web数据资源的数量急剧增加。然而,这些数据信息只能通过动态查询响应来获取,不容易被传统的搜索引擎如Google、百度搜索到,因此并未得到充
随着军用计算机网络蓬勃发展,渐渐深入到每个角落,网络管理问题随之而来。大型网络中心的网络管理问题受到空前的重视和改善,与之相对应的末端节点网络管理问题却一直没有很
近年来,人工智能广泛的应用于各个领域并得到了广泛的关注,智能割草机器人作为其代表产品,能够通过视觉传感器获取草地周围的环境,自动判断草地与障碍物,实现路径规划、自我
随着互联网络的发展,网络成了人们获取信息的重要工具。如何在互联网上有效地管理海量信息成了一项巨大的挑战,随之而来的内容管理技术和内容管理系统也成了热门的话题。内容