面向百度百科的候选答案句抽取研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:wangold
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
相比于传统的搜索引擎,问答系统能够更全面的分析用户问题、更精确的定位用户所查询的文档以及答案,因此问答系统也成了目前自然语言处理领域中的研究热点之一,并且也是尚未完美解决的问题之一,而其核心问题就是如何定位文档以及答案。答案的定位会根据不同的文档形式有着不同的技术方案和研究方向,而处在大数据时代的今天,以前的结构化、半结构化文档已无法涵盖问答的各种方面,因此,针对自然语言形式文档的答案定位技术应运而生,本文的研究重点就是如何在自然语言形式的文档之中进行答案句的抽取。本文主要研究了三类答案抽取技术:基于语义匹配的候选答案句抽取方法、基于支持向量机的候选答案句抽取方法和基于深度学习的候选答案句抽取方法。此外,我们还提出了使用多种方法进行融合的方法。基于语义匹配的答案句抽取研究已提出多年,而本文除了使用词共现的方法来计算答案与问句的相似程度,还使用了基于词相似度的句子相似度衡量方法,而中文词语相似度的衡量又分为基于词向量的相似度衡量方法和基于知网词典的相似度衡量方法。基于人工提取特征的机器学习方法需要人为分析问句与答案句之间的关系,寻找有用的特征,例如词共现比例、句子长度差异、关键词是否一致等等,然后利用支持向量机来训练一个分类器,来给出问句与每个答案句之间的分值,用于最后的答案选择。实验结果表明,特征的抽取对于最终答案抽取的效果有着至关重要的影响。深度学习方法能够自动学习特征,这避免了特征工程带来的巨大工作量。在本文中,我们使用了多种深度学习网络结构进行了实验,实验结果表明,带attention的GRU模型能够更好的学习到句子的表示,从而得到最优的实验结果。最后,我们将多方法进行融合,组合了之前的实验内容,对多种模型进行融合处理,使其发挥各自的功能,简单模型处理简单问题、复杂模型处理复杂模型,以达到最优的实验效果。
其他文献
风电电源由于其自身特点,当风电装机容量占总电网容量的比例较大时对输电网的安全和经济运行都会带来冲击。德国的风力发电大部分位于海边风力资源充裕的地方,远离负荷中心,
目的比较儿童双侧扁桃体手术中单极电刀凝切与传统剥离切除的优劣。方法选择需行双侧扁桃体切除术的患儿,2014年1~7月24例行传统剥离加双极电凝止血,2015年6~8月24例行单极电
本文着重介绍了常用注水井井下工具的结构、原理及主要技术指标,指出了密闭五参数测井中常见问题,并提出了相应的现场测井质量控制措施.
目的探讨肝胆管结石手术后口服牛磺熊去氧胆酸(tauroursodeoxycholic acid,TUDCA)预防结石复发的有效性及临床价值。方法我院2010年1月~2012年1月90例手术治疗的肝胆管结石患
总结了美国固特里奇公司在炼胶车间的原材料贮存、处理和搬运,称量区、炼胶区、混炼胶存放区和生产线快检站以及原材料批准认可程序,炼胶车间的生产计划和工业工程方面的一整套
桥吊桥式起重机是检修工作中使用频率很高的基础性设备,原有的桥吊控制系统设计落后,故障频发。为此,我们采用变频控制技术对原有控制系统进行了升级改造,分析了变频器的选型
油脂样品与金属氧化物灰化时 ,试样中的磷成为磷酸盐 ,加酸溶解而得磷酸根 ,在加入钼酸盐后生成磷钼酸盐 ,磷钼酸盐被还原而产生钼蓝 ,其颜色深浅与油脂中磷脂含量成正相关 ,
目的探讨脑卒中患者急性应激障碍与睡眠、认知的相关性。方法利用一般资料调查问卷、斯坦福急性应激反应问卷(SASRQ)、匹兹堡睡眠质量指数量表(PSQI)及简易精神状态量表(MMSE
简要介绍了并联电容器在电力系统中的补偿机理及优越性,分析了电容器运行中可能出现的故障和异常情况,进而详述了电容器所需配置的各种保护,为通用型微机电容器保护装置的研究作
【本报讯】5月8日下午,市委副书记、市长袁占亭在黄河母亲雕塑30周年纪念专题研讨会及“情系母亲河”黄河雕塑长廊项目专家研讨会上指出,“情系母亲河”黄河雕塑长廊的建设要处
报纸