面向问答的社区型知识抽取技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:OMG168
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近五年,数据驱动的方法逐渐成为了自动问答领域中新的研究热点。尤其是随着Web上各种网络社区的兴起,用户生成式内容在形式和数量上呈现出爆炸性增长,为人们积累了大量的社区型知识。种类丰富、海量的社区型知识为自动问答系统提供了前所未有的知识源,因此面向问答的社区型知识抽取技术研究对提高问答系统的性能以及为问答系统带来更好的用户体验有着积极的作用。本文重点研究了两类面向问答的社区型知识抽取技术:基于维基百科的定义型问答和论坛中问答对的自动挖掘。维基百科是一部在线百科全书,拥有大量的定义,其数据类型为我们提供了已标注好的定义型语料,而其数据的规模为我们从中挖掘序列模式提供了统计意义。本文提出了基于维基百科的定义型问答方法,主要研究了从维基百科中挖掘出频繁出现的定义型序列模式,并将其应用于定义型问答系统。实验结果表明,从维基百科中挖掘出的序列模式可以提高定义型问答系统中答案抽取的性能。本文分两个子任务对论坛中问答对的自动挖掘进行了研究:(1)论坛中问题的自动挖掘。本文采用基于二元分类的方法进行问题句的自动识别,并将问题的自动识别技术第一次应用于中文。(2)论坛中答案的自动挖掘。本文提出了一种新的面向论坛的无监督答案抽取方法,该方法首先利用流行排序对候选答案的内容特征进行排序,然后利用PageRank模型对候选答案的作者权威性特征进行排序,最后使用基于无监督学习的排序融合方法将两种特征排序融合,得到最优化的候选答案排序。实验结果表明,本文的方法比目前最好的无监督答案抽取方法更为有效,在两个测试集上的MRR值分别高出了9.70%和10.31%。
其他文献
近年来,软件规模的不断扩大,复杂度不断增加,如何提高软件开发效率,保证软件的质量成为软件工业界的关键性问题。统一面向对象建模技术为提高大规模软件开发的效率与质量带来了希
随着Web技术及其应用的快速发展,XML已经成为万维网上信息表示和数据交换的一个重要的标准,对于Web上涌现的大量XML数据,如何有效地存储和查询XML数据已经成为XML研究方向关注的
网格技术用于实现广泛的分布式资源共享和协同工作。为了一体化组织和管理地理上分布的教育资源,实现教育资源的共享,教育资源网格应运而生并成为当今研究热点之一。教育资源
方便快捷的人机交互方式一直是计算机信息处理领域所关注的焦点,而文字的输入是人机交互的核心,因此,文字输入技术是计算机应用技术的一个重要研究方向。当前文字输入方式有
细分方法是计算机辅助几何设计与图形学中一项重要的研究内容,也是几何造型领域最活跃的研究热点之一。随着人们对细分方法的不断研究,发现线性细分格式生成的曲线产生波动和
数据库数据恢复是数据库取证的一个重要组成部分,虽然目前数据库数据恢复技术主要集中在记录及操作语句的恢复,鲜有涉及在深入探讨表结构的基础上进行表中记录的恢复研究,导致很
21世纪,随着人类生活的不断改善,高度舒适和自动化的家居系统将在日常生活中扮演越来越重要的角色。本文对现有的智能家居系统进行了研究,针对目前智能家居系统机械化高,不能有效
自动导引车(Automated Guided Vehicle,AGV)是现代物流系统备受关注的关键设备。越来越多的大中型企业开始应用AGV系统,尝试以自动货运机器人来替代人工作业,节省人力资源成本,逐
模糊粒度计算理论与方法作为人类求解问题的一种新型数学工具,自提出以来得到了迅速的发展和广泛的应用,其基本思想是在不同的粒度层次上进行问题求解。本文基于商空间理论,
图像的深度获取技术的目标是从一幅或者多幅图像中恢复场景中物体的三维几何信息。近年来,这项技术被广泛地应用于工业自动化、虚拟现实、计算机辅助设计(CAD)和数字娱乐等领域