基于模式知识库的问题回答关键技术研究

来源 :复旦大学 | 被引量 : 0次 | 上传用户:lhmfly
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机可读的文本信息日益增多,有效查找和利用这些信息的迫切需求使得信息检索与信息抽取技术日益重要。但传统的搜索引擎存在的一些弊端给用户带来了一定的不便,如:用户的检索需求简单表示为一组关键词,往往会丢失很多语义信息;检索返回的结果为相关链接或文档列表,用户仍需阅读文档或片段以定位到真正需要的信息。问题回答的研究解决了这些存在的问题,首先,用户可将信息检索的需求表达为自然语言描述的问题,其次,问题回答将在文档集合中搜索并返回问题的精确答案。这个任务看似简单,但对于计算机具有很大的挑战性。本文正是在这种前提下,对问题回答技术进行了探索性研究。 论文的工作主要集中在基于模式知识库实现问题回答的关键技术上,设计并实现了问题回答系统,参加了国际文本检索会议的评测。以此为基础,我们将模式匹配技术应用到了一个相关的更新的研究领域-阅读理解,并取得了好的效果。 实现模式匹配策略最关键也是最核心的任务,即建立一个完善的模式知识库。我们提出了一种基于答案类型与问题模式的问题分类体系,同时保留了问题的语义信息与结构信息。借助TREC的评测问题集作为我们的训练与测试数据,对不同的问题分类类型进行答案模式的自动学习与评价。 我们对具有复杂结构的问题实现了模式学习,包含多个问题元素的较复杂的答案模式对于抽取出正确答案更有效更可靠。这是简单模式所无法覆盖的。同时,我们对模式匹配得到的侯选答案增加了语义类型约束,使其有更高的准确率。 为了使学习到的答案模式有更好的可扩展性,我们采取了泛化策略,在模式中加入了实体名的信息,这样,模式组成结构中不仅包含词形,也融入了语义信息,使其具有较好的鲁棒性。 答案模式的评价指标采用了数据挖掘中的可信率(Confidence)与支持率(Support)。高可信率的答案模式有更高的可靠性抽取到正确答案。 在阅读理解系统的实现中,我们引入了WordNet的同义词信息、模式匹配和上下文辅助策略,取得了明显的效果,进一步提高了系统性能,性能超过了之前的最好结果。
其他文献
在十九大报告当中,习近平总书记提出了中国共产党人的初心和使命——为中国人民谋幸福,为中华民族谋复兴。这个初心和使命是激励中国共产党人向前进步的不竭动力来源。具有中
本文使用Logistic方程、Bertalanffy方程、Gompertz方程、Meyer方程、Mitscherlich方程、Schumacher方程等6种理论生长方程,通过对不同立地、不同年龄的柞木生长数据进行拟合
罗纳德·科斯对经济学方法论的学术贡献逐渐引起学界关注。科斯本人对方法论问题的论述分散发表于不同时期,可分为两类、四个阶段,既表现出演化特点也有模糊和矛盾之处。学者
周永虎,毕业于江苏省旅游学校,国家高级技师,南京名厨,中国熟饪大师,曾任丁山天厨美食有限公司总厨,现任南京新纪元大酒店行政总厨。
中国橄榄油市场现状与未来中国植物油行业协会秘书长王俊籽先生:中国橄榄油市场现状可以概括为以下几点:国产橄榄油无法满足需求,还需依靠进口;国内需求旺盛,进口量持续增长;橄
目的探讨血常规联合C反应蛋白在小儿细菌性感染中的应用效果及价值。方法取2015年3月至2017年6月医院收治的小儿细菌性感染患者50例,设为试验组;取同期入院健康体检者50例,设