中文问答系统知识库的自动构建问题研究

来源 :山东财经大学 | 被引量 : 0次 | 上传用户:R845451732
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的不断发展,数据量日益增大,问答系统在我们的生活中发挥了越来越重要的作用。当前问答系统知识库主要是人工构建为主,耗费大量的人力物力,影响问答系统从单一领域扩展到全领域的应用。因此本文立足于前人的研究成果,着力于领域词典构建和知识库构建技术,提出邻位词共现算法扩展领域关键词库,将自定义的语义词典与关键词抽取技术相结合,提出基于词语语义计算SWR算法,抽取段落的主体词和特征词,自动构建一个以主体词和特征词标注的知识库。本文的主要研究内容有:(1)选取信息展示类网站为领域关键词抽取数据源,利用互信息加上词性规则过滤方式得到候选关键词库。利用邻位词共现算法扩展领域关键词库。构建了一个基于《知网》的领域词典。(2)对当前段落关键词提取算法进行研究,提出SWR算法,抽取段落描述主体词和特征词,构建领域知识库。(3)实现中文问答系统的知识库构建框架,验证理论方法的有效性,并应用到问答系统中。本文的创新点有:(1)提出邻位词共现算法。利用候选关键词库词语作为引导词,根据网页特征提出邻位词共现算法,挖掘已知词语的邻位词,对候选关键词库进行扩展,有效的提高了领域关键词抽取的准确率和召回率。(2)提出基于语义计算的SWR算法。本文对段落中词语的语义关系进行研究,提出SWR算法,将词语得分分为自身权重和投票权重两部分,把基于《知网》的语义相关度计算作为词语间投票权重权值分配矩阵的依据,将语义关系添加到关键词提取中,添加词语频率到自身权重中。算法有效的提高了主体词和特征词抽取的准确率,使构建的知识库更加科学合理。基于以上的研究成果,本文设计并实现了以山东财经大学为例构建的中文问答系统知识库构建框架,构建了一个领域词典和问答系统知识库。实验结果表明,算法抽取的主体词和特征词效果良好,可以用来构建知识库。以主体词和特征词标注构建知识库在信息展示类网站有着极为广阔的应用前景。
其他文献
迁移工作流是将移动计算技术应用于工作流管理的一项新技术。工作流业务过程根据业务目标的复杂程度被映射为一个或多个迁移实例,每个迁移实例执行一个目标相对独立的子业务
随着Internet和电子商务的兴起与发展,越来越多的企业在寻求涉及Internet和基于Web技术的解决方案,企业用户对应用服务的需求不断增大,软件市场正面临着一场重大的变革。随着
随着信息技术的发展尤其是高通量技术的进步,数据已成为各行业接触最多,使用最为频繁的信息载体。但海量数据的出现使得人们无法从中获得真正对决策或者预测起作用的信息,从而造
动态优化技术作为一种针对二进制代码的优化方法,能够根据即时的运行环境对程序进行动态的调整优化,从而使得程序在具体的运行环境中得以发挥最优的性能。动态优化系统也可以
在近半个世纪以来,算法研究始终是计算机科学研究的核心内容之一。 作为算法中的经典问题之一,可满足性问题(SAT)是人们证明的最早的NPC问题,它在算法学中的地位非常重要。3-
数据仓库是计算机信息化不断发展的产物,它将大量用于事务处理的数据库数据进行清理、抽取和转换,并按决策主题的需要重新进行组织,以达到快速有效支持决策的目标。物化视图
计算机网络的可靠性一直以来都是人们比较关心的问题,而提高网络可靠性的一个主要方法就是及时诊断出网络故障的具体原因。网络故障诊断专家系统在实际中应用较为广泛,但是存在
随着计算机技术和网络技术的飞速发展,特别是我国信息化建设的日益普及,电子政务应用日益广泛。电子政务是一个将政府工作信息化、网络化、公开化、标准化的系统工程,涉及到国家
随着Internet的普及和发展,图像数据飞速膨胀,使得如何有效地检索所需要的图像数据已成为当前图像应用领域的一个研究热点,为了便于图像的检索和识别,基于内容的图像检索技术应运
目前多核处理器已成为服务器和桌面的主流,不久将广泛地运用在高端嵌入式领域。以往嵌入式系统的实时性研究主要集中于任务调度和切换、实时任务的通信和容错性等,未涉及到实时