基于排序学习的问答系统研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:syhlgs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网海量数据的可访问性和可用性极大地推动了信息获取技术的研究。但是,网络资源的不断膨胀,导致人们无法快速地获取所需信息。基于此,问答系统应运而生,在医疗、教育、商业、旅游业等领域得到了广泛应用。对用户查询问题的若干答案以排序的方式展示给用户,不仅能提高用户体验,也能促进问答系统的进一步发展。传统的答案排序只考虑单一的特征作为排序标准,或者对特征的权值设置不合理,导致答案排序性能不理想。为了解决这个问题,本文对问题和答案的初级特征和高级特征的提取展开深入研究,旨在从特征的角度考虑问题和答案之间的内在关联。然后,进行归一化与基于排序学习算法隐含的特征选择处理,消除特征之间的量级影响,减少冗余特征与噪声。以初级文本特征和高级文本特征为输入,通过ListWise型排序学习方法得到特征的权值,用于优化排序结果。目前,在计算问句这样的短文本相似度时,大多数以词频为基础,简单利用余弦法进行计算会制约运算的精度且存在维数灾难。本文针对上述问题,采用word2vec分布式词向量短文本表示方法,并将问答系统中涉及的相似度计算分为两类,一类是计算不同问题之间的相似度,即短文本相似度计算;另一类是计算给定问题与其所有候选答案的相似度。在词向量空间中引入EMD距离特征,计算文本中所有的词移动到另一文本对应的词需要的最小移动距离,使用融合多特征的混合策略来提高相似度计算的准确性。为了增强问答系统的模糊匹配能力,通过扩展问句关键词来提高相似问句的召回率。考虑到系统的准确度和效率,主要针对句子关键词中的名词和动词进行扩展。最后,通过系统的实现,对用户问题的候选答案进行相关度排序展示,验证了本文的相关改进方法在实践中是可行的。
其他文献
目的分析细菌性肺炎和支原体肺炎患者血脂水平的差异,探讨血脂检测在细菌性肺炎与支原体肺炎辅助鉴别诊断中的价值。方法采用酶耦联比色法、免疫比浊法、终点比色法对77例细
汉派服装秉承长江三角经济带的优势,汲取素有九省通衢之誉武汉的“营养”,以其鲜明特色,曾率先以区域品牌名噪全国。汉派服装企业绝大多数是私营性质,机制活、变化快,市场适应能力
采用随机对照试验观察四神聪针刺治疗原发性失眠症的临床疗效。剔除脱落病例后,治疗组33例,对照组32例,结果显示治疗组在总体疗效(PSQI)、次要结局指标HAMD评分、SAS评分等方面的
当前,高中生的数学学习存在一些不良状况,学生虽然知道数学是一种文化,但不知道数学文化的本质特征,往往产生“数学无用论”的错误思想.2003年国家新课标中提出高中数学课程
大学生学籍管理应当以尊重大学生受教育权为基本准则,坚持以人为本。这对加强高等教育内涵建设、维护校园稳定、维护教育公平公正具有重要作用。以人为本在学籍管理中还存在不
B2B电子商务,作为新经济时代的产物,已经成为众多企业关注和利用的焦点。B2B电子商务的发展为中小企业与大企业的竞争提供了很好的机会和平台。本文的主要研究内容是当前Intern
土方量计算直接关系到工程施工的费用概算及方案选优,是工程施工阶段的一个重要环节。采用方格网法计算土方的三种情形公式,结合实际算例分别进行详细比较与分析,得出三种情
美国是世界上最大的发达国家,中国是最大的发展中国家,自中美建交以来,两国贸易关系取得了长足进展,由于两国在经贸领域存在较强的互补性,中美贸易额增长迅速。美国已成为中国第二
被动语态是英语中一个很重要的语法项目,并且对于中国学生来讲,也是一种较难掌握的语法现象。其主要原因是因为汉语和英语属于完全两种完全不同的语言体系。英语是一种形态丰富
目的:脊柱侧弯的病因仍不清楚,而在其发展中,生物力学因素是极为重要的原因。侧弯后脊柱两侧产生不对称的应力,可能会引起两侧软骨终板的不平衡生长,是椎体楔形变、畸形发展的重要