面向中文问答系统问题分析与答案抽取方法研究

来源 :河北科技大学 | 被引量 : 10次 | 上传用户:jason31906
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展以及自然语言处理技术的兴起,问答系统进入了面向开放领域、基于自由文本数据的发展阶段。如何从海量信息中获取有用信息是学术界和工业界关注的一个热点。与传统的搜索引擎相比,问答系统允许用户以自然语言提问,并能更好地满足用户对快速、高效、准确获取信息的需求。本文从问题分析和答案抽取两方面对问答系统进行进一步分析。在问题分析方面,本文从长文本和短文本以及数据的序列性三个角度提出了基于在线隐式狄利克雷分布(Extended Latent Dirichlet Allocation,Extended LDA)和增量短文本主题模型(Incremental Biterm Topic Model,IBTM)的动态主题模型—CTM主题模型。该模型不仅可以捕获用户问题文本中的语义信息,还可以捕获滑动窗口中的词对信息,并能对实时数据进行分类和用户意图分析。由于中文分词工具产生的误差和中文语法的灵活性,传统的从中文文本中提取关键词的方法并不能完整捕获用户所提问题中的主题焦点。本文从基于词性特征组合和同义词词库两个方面对前面提出的动态模型进行改进。实验证明本文所提出的两个改进方法有助于挖掘用户问题中的主题焦点。在答案抽取方面,现阶段本文所研究的答案抽取与答案选择和答案排序问题是类似的,为了保持上下文一致性,本文仍以答案抽取来表示答案选择和答案排序。针对目前基于神经网络的答案抽取模型没有充分考虑问题和答案之间的关系等问题,本文提出了基于双向长短时记忆神经网络(Bi-directional Long Short Term Memory Network,Bi-LSTM)的答案抽取模型。该模型直接用Bi-LSTM对问题的表示向量学习,通过利用卷积神经网络(Convolutional Neural Network,CNN)进一步提取问题特征,然后利用注意力机制对答案的表示向量与问题最终表示向量的相关性进行加权。该模型有效地提取了问题与答案之间的关系。经实验验证本文所提出的基于Bi-LSTM的答案抽取模型在基于搜索引擎中的问答数据集上取得了良好的实验效果。
其他文献
为体现节能环保和"城市,让生活更美好"的世博理念,世博中的部分永久性场馆在建设过程当中利用濒临黄浦江的有利条件,共有浦东的一轴两馆和浦西的城市最佳实践区共四处使用了
目的:小儿反复呼吸道感染是儿科常见病,本研究旨在探讨益气润肺法治疗反复呼吸道感染气阴两虚证的临床效果,为中医临床治疗小儿反复呼吸道感染提供新思路。方法:选用40例均符
目的:观察固冲止血汤治疗气虚血瘀型青春期无排卵型功能失调性子宫出血(简称功血)出血期的临床疗效及止血机理。方法:将60例气虚血瘀型青春期功血患者随机分为治疗组(30例,口
从研究背景,阐述了英汉隐喻美学价值之异同及隐喻的内涵,强调隐喻的本质就在于根据已知经验,在联想的基础上.在不同种类的事物之间建立起等值或相似的关系,提示人与自然的相似和统
目的:本研究在回顾中医学历代典籍文献对泌尿系结石病因病机论述的基础上,结合流行病学调查方法,分析泌尿系结石病人的个体资料、中医诊断和X线诊断资料,探讨泌尿系结石中医
目的观察益气通痹胶囊对冠心病心绞痛(气虚血瘀证)的临床疗效、安全性,与心痛康胶囊作对照,并探讨其疗效机理,为临床推广应用打下基础。方法1临床资料全部病例来源于2007年辽
研究背景严重脓毒症及脓毒症休克是导致多器官功能障碍综合征的最常见病因,病死率可高达30%~50%,严重威胁病人的生命安全。急性肾上腺皮质功能不全是脓毒症常见而易被忽视的并
教育是实现人的发展的重要保障。高中教育是人的一生中最重要的受教育阶段之一,它连接着高考,影响着人生的定位,每年一度的高考就是年轻人奋斗拼搏的目标。形象地说,高考就是
21世纪是科学技术迅猛发展的时代,国际间竞争日趋激烈,经济全球化趋势日益明显。高职教育是教育事业的重要组成部分,构建与运用高职院校的综合标准体系,可以在整体上提高学校
目前,对高中英语学困生的研究已经起步,但笔者认为,学者们在学习者个人因素方面研究得相对较多,而对教师转化产生的影响,在转化学困生的具体途径、方式、方法的创新方面的研