基于神经网络的文本相似度匹配算法研究

来源 :太原科技大学 | 被引量 : 0次 | 上传用户:choww
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前社会中信息技术的不断发展和应用越来越受到人们的关注,信息技术也在很大的程度上方便了广大群众的生活。大数据、人工智能等技术相关的应用渐渐的出现在大众的视野中,随之而来是,人们的需求也不断地提升,人们需要从海量的互联网数据中提取中自己所需的信息。因此,研究者和学者们将人工智能技术应用到自然语言处理领域中,出现了自动文摘、文献查重、文本分类与聚类、自动问答系统等一系列应用,极大的方便了人们的生活,这些应用都涉及到文本相似度的计算。文本相似度计算的应用非常广泛,因此对文本相似度的研究非常有价值。本文通过对传统的文本相似度计算算法进行分析总结,分析各种算法的优缺点及使用场景,在之前学者研究的基础上,提出了基于神经网络的文本相似度计算模型。本文做的主要工作有以下两点:1.将Doc2vec算法和Bi-LSTM算法两者结合,提出了基于Do-Bi-LSTM文本相似度计算方法,其中Do为Doc2vec的缩写。该模型首先通过Doc2vec语言模型把训练数据集中的文本转换成向量,该方法在词向量的基础上增加了文本的段落向量,从而获取了句子之间以及段落之间的相互关系。然后把得到的向量作为Bi-LSTM网络模型的输入进行模型训练,最后通过与LSTM网络模型、传统的深度网络模型相比,实验表明该方法的准确率有很大的提高,具有可行性。2.在先前研究的基础上,采用BERT训练词向量,并在模型中引入多头注意力机制(Multi-head Attention),该模型在网络输入层引入了词向量和位置向量,在文本的语义表达上相较于其他深度学习模型更加准确,最后通过在公开的数据集上进行实验,和其他模型进行比对,F1值明显提高,验证了该模型具有更高的性能。
其他文献
随着无线通信技术的创新和发展,人们对无线通信系统的要求越来越高,滤波器作为无线通信系统中关键的信号过滤器,愈发向着低插入损耗、高回波损耗的高性能发展。基于以上背景,本文开展了工作在C波段以及X波段的高性能微带带通滤波器的研究和设计工作,主要研究内容如下:(1)首先,本文介绍了微带线理论,分析了阶梯阻抗谐振器(SIR)的基本特性,并运用了伪交指型的SIR结构设计了一款单频带微带带通滤波器,然后使用了
合成孔径雷达相比于传统雷达可以提供更多的目标信息,现已广泛应用于军事民用的侦查和监测领域。成像场景幅宽和分辨率是成像中两个重要的性能指标,宽测绘带可以实现大场景的同时照射,提高所获数据的时效性,高分辨率可以获得丰富的场景目标信息,提升SAR图像的质量。传统的成像模式如聚束模式、扫描模式等无法同时实现高分宽幅成像,现有的高分宽幅成像模式主要依赖于空域滤波解模糊,从而减轻或避免方位分辨率和距离幅宽之间
学位
作为一种能够有效缓解信息过载问题的主要工具,推荐系统的研究与应用日益广泛,但一直面临着数据稀疏性问题的困扰。跨领域推荐是一种缓解数据稀疏性问题的有效方法,其通过利用辅助域的用户—物品交互数据来帮助目标域生成推荐结果,已成为推荐系统领域的研究热点。当前主流的跨领域推荐大多使用张量分解方法,该方法只能模拟线性的用户—物品交互关系,特征提取能力较差。深度神经网络对于多源异构数据有着强大的处理能力,十分适
作为图像处理领域的研究热点,运动目标的实时检测技术已经应用到了自动驾驶、机器视觉、人机交互等多个领域。然而在绝大多数情况下,这些实际场景中的运动目标不止一个,而且
互联网时代,随着网上数据总量的高速增长,推荐系统给人类带来了极大的便利。通过帮助用户寻找喜好相关的资讯或者物品,推荐系统减少了用户在庞大数据面前寻找所需信息的时间。但是人们在享受推荐系统带来便捷的同时,也不得不担心推荐系统引发的数据安全和隐私泄露问题。用户数据在推荐系统的各个环节都有可能被泄露,并且攻击者对匿名后的数据利用其他公开的信息,依然能够还原被匿名的身份,暴露用户部分敏感信息。可见简单的隐
我国是蛋白质原料需求大国,对进口蛋白质原料特别是鱼粉和豆粕依赖度超过70%。然而,随着资源存量及气候变化等原因,鱼粉产量逐年下降,豆粕价格居高不下,养殖业的可持续性发展面临严峻挑战。因此,近年来动物营养学家致力于寻求其他动物蛋白源的研究,昆虫资源已成为饲料行业中的研究热点。黑水虻(Hermetia illucens L.)又名亮斑扁角水虻,属双翅目水虻科昆虫,该虫体内蛋白和脂类含量丰富,是一种可开
学位
瓶装矿泉水在我国零售行业占有巨大市场份额,是日常生活中必不可少的饮品。但是,由于现存的生产设备和检测设备有很多不足,在矿泉水的灌装过程中可能包含可见的悬浮物,例如纸
学位