面向非结构化文本的问答系统中答案抽取技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:qinjiajign1323770
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
搜索引擎是用户获取知识和答案的重要渠道,通过用户在搜索框中输入的query,搜索引擎返回排序好的网页集合供用户浏览,用户需要快速浏览一些网页,根据自身的辨别能力找到目标答案的具体位置,整个流程费时费力。基于自然语言处理技术的问答系统是传统搜索引擎的重要改进方向,能够帮助用户获取精确简短的答案。维基百科,百度百科等非结构化文本是构建问答系统的重要数据来源。和基于知识图谱等结构化知识的问答系统相比,非结构化文本数据规模庞大而且容易获取,为了提高系统返回答案的准确性,首先根据问题的意图缩小答案候选句子集合,然后进行答案精确定位。本文针对问答系统中候选答案句子选择及精确答案定位技术进行了研究。对于候选答案句子选择,本文从两方面进行了研究:1)本文使用传统机器学习方法对问题句和答案句之间的关系进行建模,提取三个方面的特征:基于句子向量表征的相似度特征,基于词共现的特征以及句子本身的长度等基本特征,本文使用SVM和Xgboost分类器,给出问题句和每一个候选答案句子的分数,用于答案排序。2)本文还使用CNN,LSTM等深度学习模型对句子进行语义表示,采用pairwise方法进行训练,实验结果优于传统机器学习方法;对于精确答案定位的研究,本文将该任务看作机器阅读理解任务,提出了适用于阅读理解任务的baseline模型,并在该模型的基础上,对输入特征和模型结构进行改进:使用多层双向LSTM代替单层单向LSTM、引入注意力机制增加问题和答案句子的语义交互、增加预训练的ELMO词向量以及多个模型集成的方法提升EM和F1指标。实验证明,这些方法在基础模型上效果提升明显,适用于机器阅读理解任务。
其他文献
家长参与学校管理是促进学生发展,促进学校办学的必然要求。但在现阶段,大部分有关家长参与的研究都聚焦于城市地区的学校,而实际上,城市地区学校的家长参与问题在理论与实践
根据超空泡射弹空泡产生方式的不同,射弹可分为自然超空泡射弹和通气超空泡射弹。本文重点研究了自然超空泡射弹内弹道特性规律。以经典内弹道学为基础,结合水下发射的特点,
近年来,随着中国工业的迅猛发展和城市的飞速扩张,土地污染面积随之激增,其中,土壤重金属污染问题尤为突出,已成为危害中国土壤环境质量和粮食安全的主要问题。本研究在前期文献总结和现场调查的基础上,选取云南省个旧市大屯镇一工矿区周边耕地为研究对象,针对典型重金属污染耕地对农作物影响进行研究。主要结合单因子指数、Nemero指数、潜在生态危害指数、人体健康风评估等方法对土壤-农作物重金属污染现状以及当地居
随着电力市场的扩张与电力行业的快速发展,电厂作为典型的以设备为核心的资产密型企业,内部各个系统及机组容量不断扩张,导致各类电厂设备的数量和种类都在不断增加,越来越多
长久已来,促进激励作者创作作品被各国视为著作权法的主要立法目的之一。著作权法作为权利法,其中蕴含确认与保障作品权利之功能不言自明。但保障作者权利与促进激励作者进行
目的建立一种新的快速纸层析杂交技术,用于特异性检测带有生物素标记的聚合酶链式反应(PCR)扩增产物。方法将特异性捕获探针固定在聚酯砜膜上,扩增产物置膜一端,经毛细作用,带有生物素
采用基于密度泛函理论的第一性原理平面波超软赝势方法并结合局域密度近似(LDA),计算了(Mg0.875,Fe0.125)SiO3钙钛矿在高压下的光吸收和折射率性质.结果表明:(1)计算得到的二价铁
果蔬保鲜已成为现代食品保鲜领域的需求重点和研究热点,开发以农林废弃物为原料的新型保鲜剂就具有良好的前景和实际可行性。尤其是以云南农废甘蔗渣中的半纤维素作为原料,就更具有经济价值和社会意义。本论文针对传统半纤维素基膜材料在强度方面的主要问题,研究纳米纤维素(NCC)作为增强剂时,其对半纤维素基复合膜的强度及理化性质的影响。并通过傅里叶红外光谱(FT-IR)、热重(TG)、X射线衍射(XRD)及扫描电
随着科学技术的不断发展,我国的教育水平也在不断的提高。进入新世纪以来,我国计算机技术和网络技术发展迅速,这便增加了对该方面人才的需求。在计算机网页制作的教学过程中,
大口径火炮在远距离打击和近距离压制敌人时,由于射程不同,所需的装药量也不同,其后坐位移也将随之改变。而后坐位移作为火炮安全性能的一个重要指标,其变化程度直接影响火炮