基于GNN的文本匹配算法的研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:zjzhanjx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本匹配是自然语言处理领域基础任务之一,实现时往往需要较为复杂的文本交互的过程。论文针对这个实际问题,并结合文本匹配具体的任务场景,设计了一个基于BERT(Bidirectional Encoder Representation from Transformers)预训练模型和图神经网络模型混合的文本匹配算法,该算法可以简化复杂的文本交互的过程,达到一个较好的文本匹配的结果。论文借鉴了Sentence-BERT模型的算法设计思想,基于BERT预训练模型和图神经网络模型设计了一个混合文本匹配算法,算法分成两个部分:文本语义匹配部分和句法依存匹配部分。文本语义匹配部分是基于BERT预训练模型,增加多种注意力交互方法获取更多层次的语义信息,同时结合了文本匹配具体应用场景的特点,对其中的核心注意力机制进行修改,使得该注意力机制可以更深层次的挖掘文本匹配的语义信息;随后引入了局部向量信息增强的操作,来增强文本匹配特征向量信息的表征,将得到的增强向量通过平均池化和最大池化的操作,得到的向量减少了过拟合,并且保留句子的主要特征,提升模型的泛化能力;在池化操作后,经过全连接网络降维,就得到了语义匹配部分最终的文本向量。而句法依存匹配部分,则是利用句子具有句法依存结构的特点,将句法依存结构转换为图结构;随后使用图神经网络将图结构进行编码,这一部分则是为了提取句子本身的句法结构的信息,来增加文本匹配句法层面的特征;随后使用平均池化和最大池化来获取整张图的特征向量,将得到的两个图向量通过全连接层进行加权整合。最后则将文本语义匹配部分和句法依存匹配部分得到的向量进行拼接,并使用拼接后得到的最终向量来完成文本匹配的具体任务目标。在论文的实验部分,采用Pytorch深度神经网络框架进行算法模型的开发,开发完成后在文本匹配领域的多个公共数据集上进行实验,结果验证了该模型的有效性。
其他文献
如今互联网技术正飞速发展,互联网无时间地域限制、操作成本低、信息量大等突出优点,使得线上招聘逐渐取代传统招聘,成为求职者的主要求职途径。一个理想的招聘系统应该具备用户操作流畅,使用方法简明,界面干净简洁,流程直接不繁琐,求职反馈及时等特点。在需求分析中规划了系统三类用户招聘者、应聘者、系统管理员的功能需求,和系统性能要求;在系统设计中对系统架构、功能模块、数据库表和索引设计,对高并发问题技术选型;
学位
随着智能交通领域兴起,交通标志识别作为其关键技术,发展同样迅速。但传统的交通标志识别需借助大量监督数据,而监督数据获得困难,并且传统的识别方法需要在高成本的重新训练下才能对新的交通标志进行识别,无法适配地区性交通标志差异和满足今后的需求。事实上,交通标志具有原型图像,在此基础上我们利用小样本学习的方法来解决上述难题。而目前的变分原型编码器(VPE),利用小样本学习与编码器结合将真实图像和原型图像诱
学位
在传统的建筑行业中,若要绘制建筑模型,大多会采用CAD(Computer Aided Design,计算机辅助设计)进行制图,尽管能够通过一些电子设备提高绘制的效率,但是仍需要耗费巨大的人力。随着科技以及数字化技术的蓬勃发展,BIM(Building Information Modeling,建筑信息模型)渐渐被人们所关注,并受到了广大建筑行业人员的青睐,是建筑行业发展的新趋势,在Web端针对BI
学位
网络时代的到来,智能手机的发展,加上流量资费的不断降低,使得基于IP网络的语音通话迅速发展起来,各种语音通话的框架更是层出不穷。但由于这种语音通话基于IP网络,而网络传输情况复杂且存在很多不可控因素,这就意味着语音数据在网络传输时的安全无法得到保障,比如可能出现被第三方监听截取的风险,所以当人们的交流涉及一些个人隐私或者需要保密的信息时,语音通话不再成为人们的选择。因为安全问题,语音通话的发展受到
学位
随着互联网技术的高速发展,网络已成为人们沟通交流、获取信息的主要通道。而网络上的信息多以短文本的形式展现,如何快速有效地提取短文本中的信息,是一个非常有价值的课题。传统的短文本分类方法不仅过度依赖于情感词典的构建,而且需要耗费大量的人工成本进行特征提取。通过对这些问题进行分析,利用短文本的特点,设计了基于LSTM-TextCNN的短文本情感分类模型对传统分类方法作出改进。在课题研究过程中,通过阅读
学位
随着电子计算机断层扫描、磁共振成像、正电子发射计算机断层扫描等医学成像技术的产生与发展,医学成像领域的科研工作者和医务人员可以通过医疗设备获取连续的二维切片断层数据。但是根据这些二维的图像数据,科研工作者和医务人员很难建立生物及其内部器官的三维立体结构,不利于科研工作者进行科学研究、医务人员进行医学诊断。对二维的医学数据进行三维重建,重建出生物及其内部器官对应的三维表面轮廓,并将三维的轮廓模型进行
学位
随着互联网的发展,企业的业务规模越来越庞大,企业内服务器数量逐步增多,服务器上部署的应用种类和数量也随之增多,如何高效地、可靠地管理这些服务器与应用是企业要面对的一个重要问题。基于此问题,设计出一个整合多种业务需求的IT运维管理平台。通过在运维管理平台中进行操作,就可以实现对线上服务器和应用运行状态进行监控以及对应用进行快速发布部署等功能,极大地提升了IT运维人员的工作效率。本系统基于某中小型企业
学位
计算机技术的发展,带来新的产业格局转变。其中康复医疗行业通过积极拥抱互联网行业,迎来新的发展契机。例如,近些年,基于虚拟现实技术研发的各类康复游戏,在市场中不断涌现。然而,大部分游戏仅针对患者的一个部位进行康复训练,导致患者需要在多套系统之间切换,患者的训练行为难以追踪,游戏训练数据分布零散且内在价值难以被挖掘等问题。针对目前康复游戏在用户行为追踪和游戏数据管理两方面的痛点,该研究以一组康复游戏产
学位
当今时代,随着互联网的普及和多媒体的发展,图像有了广泛的应用,图像的传输需求越来越高,图像在传输中的安全也越来越重要,所以对图像加密方面的研究愈显重要。PNG是重要的图像格式,PNG图像广泛应用于网络、软件和手机上,所以研究PNG图像的加密将有重要的意义。在数据量巨大的今天,传统的加密技术对称加密和非对称加密,它们都存在着一定的缺陷,可能未加密文件关键属性,密钥密文相关性不高,在计算机技术发展的过
学位
随着医疗影像技术的不断发展,正电子发射断层成像机(PET)设备所需要处理的数据量越来越大,对数据处理及可视化系统的需求越来越强。市面上大部分的可视化系统是对于PET重建数据的二维切片成像,对于重建之前的阶段如采集、符合则需要分阶段处理,无法做到完整过程上的实现。因此对于PET设备来说越来越需要一套集采集、符合、重建、校正及可视化于一体的软件系统。针对PET设备的软件需求,对PET的浓度数据及现有的
学位