论文部分内容阅读
随着互联网的不断发展,数据量日益增大,问答系统在我们的生活中发挥了越来越重要的作用。当前问答系统知识库主要是人工构建为主,耗费大量的人力物力,影响问答系统从单一领域扩展到全领域的应用。因此本文立足于前人的研究成果,着力于领域词典构建和知识库构建技术,提出邻位词共现算法扩展领域关键词库,将自定义的语义词典与关键词抽取技术相结合,提出基于词语语义计算SWR算法,抽取段落的主体词和特征词,自动构建一个以主体词和特征词标注的知识库。本文的主要研究内容有:(1)选取信息展示类网站为领域关键词抽取数据源,利用互信息加上词性规则过滤方式得到候选关键词库。利用邻位词共现算法扩展领域关键词库。构建了一个基于《知网》的领域词典。(2)对当前段落关键词提取算法进行研究,提出SWR算法,抽取段落描述主体词和特征词,构建领域知识库。(3)实现中文问答系统的知识库构建框架,验证理论方法的有效性,并应用到问答系统中。本文的创新点有:(1)提出邻位词共现算法。利用候选关键词库词语作为引导词,根据网页特征提出邻位词共现算法,挖掘已知词语的邻位词,对候选关键词库进行扩展,有效的提高了领域关键词抽取的准确率和召回率。(2)提出基于语义计算的SWR算法。本文对段落中词语的语义关系进行研究,提出SWR算法,将词语得分分为自身权重和投票权重两部分,把基于《知网》的语义相关度计算作为词语间投票权重权值分配矩阵的依据,将语义关系添加到关键词提取中,添加词语频率到自身权重中。算法有效的提高了主体词和特征词抽取的准确率,使构建的知识库更加科学合理。基于以上的研究成果,本文设计并实现了以山东财经大学为例构建的中文问答系统知识库构建框架,构建了一个领域词典和问答系统知识库。实验结果表明,算法抽取的主体词和特征词效果良好,可以用来构建知识库。以主体词和特征词标注构建知识库在信息展示类网站有着极为广阔的应用前景。