基于深度学习的句子相似度计算方法研究

来源 :中北大学 | 被引量 : 0次 | 上传用户:jessieharbin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机的普及,人们习惯于使用互联网来获取所需要的信息,但是由于数字信息是以指数形式逐年递增。人们在使用搜索引擎时,搜索引擎只能返回相关信息的链接或者包含答案内容的大段文本资料,用户想要获取有用的信息还要进行二次筛选,搜索引擎已经无法满足大多数人的需求。但问答系统反馈给用户的答案不是一大堆相关的文档或者是相关的链接,而是更加精确的答案,这样更加符合用户的需求。问答系统的关键技术就是问句相似度处理,传统的相似度研究方法无法有效捕获句子的语义信息,而且匹配的准确度不高。深度学习中的卷积神经网络可以对句子特征进行有效提取,循环神经网络可以捕获句子的上下文信息,两种方法都可以很好的捕获句子的语义信息,并且使用深度学习的句子相似度准确度更高。本文对深度学习中卷积神经网络(CNN)和循环神经网络(RNN)在文本处理上的优缺点做了对比。结合深度学习的相关知识着重研究了深度匹配语义模型,并对基于卷积神经网络的语义匹配模型展开研究,在池化层使用k-max均值采样,提出了基于k-max均值采样技术的句子相似度算法,通过与原模型进行实验对比,得出本文所用方法的精确度更高。在实验研究的过程中发现该方式存在无法捕获上下文语义信息方面的不足。针对卷积神经网络无法捕获文本上下文语义信息的问题,提出了基于LSTM与卷积神经网络相结合的句子相似度计算方法,即首先通过循环神经网络捕获上下文的语义信息,然后通过卷积神经网络提取特征,最后使用余弦相似度进行句子相似度处理。这种方法结合了前两种方法的优点,通过均方根误差作为实验的评估标准。实验结果表明,所提出方法的精确度更高。
其他文献
<正>在女性消费者看来,好化妆品最重要的三个标准是"适合自己的肤质"、"纯天然"、"有良好的口碑",其中,肤质的适合性最为关键。日化行业是数字100一直在跟踪的一个领域,特别
采用中国纺织行业上市公司2011—2013年相关数据,通过多元回归分析方法,对我国纺织业上市公司多元化经营与其成长性关系进行了实证分析,得出多元化投资与纺织业上市公司成长
以自制的环氧环己烷基聚醚二醇、异佛尔酮二异氰酸酯(IPDI)和甲基丙烯酸-β-羟乙酯(HEMA)为原料,合成了一种聚氨酯丙烯酸酯大分子单体,经自由基聚合,制备了一种新型透明聚氨酯材料。
内部审计是企业为保证目标的实现,在企业内部通过审查和评价自身经营活动、财务行为,内部控制等的合法、适当、有效而开展的独立的监督评价活动。它既是内部控制系统中的一个重
近年来,基层涉纪乱象纷呈、矛盾迭起,影响了基层组织形象,扰乱了农村治理。对此,湖南省娄底市探索性地构建&#39;村级小微权力+互联网+监督&#39;平台,以规范村级财务管理为抓
中山市作为广东四小虎之一,伴随近年来经济的快速发展,酒店集群也迅速崛起。本文着重对中山市发展酒店产业集群的有利和限制因素两方面进行分析,从而对中山市酒店产业集群及
对山西历山2尾野生大鲵Andriaz davldianus mt DNA中Cytb和ATPase6基因的部分序列进行了检测,并与GenBank中收集的14尾外地样本进行比较,用Mega5.0软件对305bpCytb片段和371bp A
数字技术的应用与发展给现代出版业带来了新的生命气息,由传统出版到数字出版的转型也成为新媒体时代不可逆转的趋势。作为传统出版人的韩寒从杂志书《独唱团》无限期的停刊
近年来随着页岩气藏的大规模开发,在水平井多级分簇压裂过程中套管损坏问题频繁出现,给后续压裂施工造成一系列问题,甚至减少压裂段数,降低了单井产能。虽然国内外许多学者已
谣言的社会性决定了其普遍性与持续性。作为谣言传播过程中的重要事实,对微信平台上的“旧谣新传”现象进行研究,有利于理解谣言于社会环境中的生成动机、传播机制与作用效果