基于卷积神经网络的句子相似度计算方法研究与应用

来源 :重庆大学 | 被引量 : 0次 | 上传用户:passionzy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
句子相似度计算作为机器翻译、剽窃检测、查询排序及问题回答等诸多自然语言处理任务的基础,其准确性直接影响相关系统的性能,因而如何提升句子相似度计算的准确性成为亟待解决的问题。传统自然语言处理的方法主要利用人工指定的浅层特征,而基于神经网络模型的方法无需人工构造特征就可从大规模的文本中学习特征,进而获得句子的深层语义信息。由于卷积神经网络在提取特征时存在感受野狭小、卷积方式不灵活等问题,本文提出两种模型来改善上述问题,并研究了句子相似度计算在知识问答系统中的应用,主要研究内容包括以下三个方面:(1)提出了一种普通卷积和膨胀卷积结合的句子相似度计算模型CNN-IDCNN(Convolutional Neural Networks-Iterated Dilated Convolutional Neural Networks)。针对卷积神经网络在提取文本特征时感受野狭小、层级之间的池化方式存在信息损失的不足,提出了在普通卷积模块的基础上加入膨胀卷积模块的方式来提取句子长距离语义信息,让句子的特征表示包含词、短N-gram、长N-gram信息,从多个粒度丰富句子特征表示,从而提升相似度计算性能。(2)在融入依存句法树的卷积神经网络模型上进行了改进。卷积神经网络是通过特定大小的窗口对相邻词语进行卷积来提取特征,由于卷积窗口通常较小且只是对相邻词语做卷积,故而卷积方式不够灵活,忽略了原句中互不相邻但有强语义关联的词语组合,为此本文使用了融入句法树的卷积神经网络,通过将卷积核作用于由依存句法树得到的词语组合来改善上述问题。实验结果表明,本文提出的方法较传统方法有较大优势,且优于近些年提出的一些基于卷积神经网络模型的方法。(3)对基于问题匹配技术的问答系统进行了研究。主要研究了相似度计算在问答系统中的应用,即通过本文提出的相似度计算模型来比较用户提出的问句与候选句子之间的语义相似度,再将语义相似度最高的候选句所对应的答案返回给用户,从而完成问答系统。
其他文献
香茅醛是一种无环单萜醛。由于香茅醛分子里有一个不对称碳原子,故多以(R/S)-香茅醛混合物的形式出现,其中(R)-香茅醛可以合成天然维生素E、是药物合成中间体,也是世界三大香
随着我国城市化进程加快,城市规划逐渐转向以存量更新为主的发展模式,城市发展面临土地资源紧缺、公共服务资源有限的局面,尤其在老龄化速度不断加快的背景下,老年人日益增长
海洋划界后,出于对跨越海上边界的共享性渔业资源种群利用与管理以及生态系统整体性保护的需求,相关沿海国之间应开展渔业合作,《联合国海洋法公约》和其他有关渔业条约对此
在液压支架工作环境中,配液水对浓缩液或乳化油正常使用起着关键作用。通过对全国各地的配液水样整合分析得出结论,当配液水质硬度大于250 mg/L时,使用者通过标准MT76-2011选
目的分析2型糖尿病(T2DM)患者视网膜病变(DR)患病率及其相关因素。方法对3404例2型糖尿病住院患者进行回顾性研究,根据眼科会诊结果,将患者分为3组,其中非DR组(A组/NDR组)256