基于特征融合的短文本语义相似度计算研究

来源 :桂林电子科技大学 | 被引量 : 0次 | 上传用户:war_and
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
短文本的语义相似度计算任务是自然语言处理中的基础任务之一,在文本匹配、推荐系统、文本生成等领域都有广泛的应用场景和技术研究需求。现有技术建模手段主要是通过基于字符匹配度的数学算子建模与基于单词向量的神经网络建模。这两种方式都是基于单一特征建模,文本相似度计算结果依赖于带标记的数据量和单一特征。单一特征的建模方法难以满足文本相似度计算对特征多样性的需求,从而导致网络模型难以进一步提升推理结果的准确性。针对上文提到的单一特征难以将文本特征进行全面表达的问题,构建了多特征组合数据,对其进行特征提取操作。设计了一个语法树嵌入算法获取依赖向量。构建了一个语法树自编码器获取依赖信息。依赖信息与语义信息向量和位置信息向量结合成了多特征组合数据。针对多特征模型数据冗余带来的模型表现下降问题,设计了特征融合以及筛选机制。组合特征经过拆分筛选,随后融合成全局特征。全局特征能更进一步的提升相似度。本文所做研究工作主要有下列几个方面:第一,设计了基于句法分析的语法树嵌入表示方法。通过语法树生成算法获取短文本的语法依赖信息,并在语法依赖树的符号表示基础上生成初始化的依赖矩阵块。由于生成的依赖矩阵块存在数据稀疏和噪点的现象,本文利用自编码网络对矩阵块进行了降维和去噪操作,从而能够使用稠密向量去表示短文本的语法依赖和结构信息。该语法依赖的结构特征作为后续网络融合学习的多特征输入之一,通过实验表明该特征的融合能够进一步的提升相似度计算的准确性。第二,构建了多维组合特征提取编码器。通过语法树嵌入算法得到依赖向量特征,与语义特征与位置特征组成多维特征组合。由于组合特征没有经过预训练操作,本文构建了特征提取编码器对特征输入采取特征精炼操作,从而能使得多维特征对网络的适应性得到增强,得到了更加精炼的数据输入。通过实验证明,经过特征提取的特征在数据集精确度上取得2.46%的更优表现。第三,设计并构建了基于ResNext-Net Vlad的特征筛选网络。在精炼数据的基础上对数据进行分组拆分聚合操作,对相似度计算结果不利的局部特征被筛去,获得有利于最终结果计算的文本特征。由于经过特征筛选之后,局部特征之间的联系被打破,特征呈碎片化,本文进行了特征融合操作,求得了聚类中心簇,根据聚类中心簇求解得到短文本相似度。为了论证上述方案的可行性,在Sem Eval数据集上展开了实验。实验的结果表明经过语法树嵌入之后的特征的准确度提高至87.4%。本文方法在Semeval的8个数据集上取得了其中6个数据集的最佳结果。
其他文献
MOSFET功率器件具有驱动方式简单、易集成、易并联、输入阻抗高以及开关响应快等优点,广泛应用在交通运输、生活娱乐以及军事航空等各个领域。但是由于其比导通电阻(Ron,sp)与击穿电压(BV)存在着2.5次方的矛盾关系,于是随着击穿电压的升高,导通电阻显著增加,这严重的限制了MOSFET在高压大功率领域的应用。本文围绕如何改善横向MOSFET功率器件中Ron,sp与BV的矛盾关系,以及如何降低曲率
在建筑密集的城市、深林沟壑的野外和室内等环境复杂的区域,全球卫星导航系统(Global Navigation Satellite System,GNSS)信号容易受到遮蔽,导致定位精度下降严重,甚至无法提供正确的位置服务。为此,在特定区域建立伪卫星定位系统来提供导航信号能够有效弥补卫星导航系统的信号盲区,成为克服此类问题的途径之一。在分布式伪卫星独立组网定位系统中,伪卫星的时钟各自独立,因其工作起
大数据时代对传统存储系统的各项性能提出了全新的挑战,传统存储系统在大规模数据存储方面存在诸多缺陷,所以分布式存储系统凭借其优秀的性能和低廉的构造成本成为了当前大规模数据存储领域的主流存储系统。但由于分布式存储系统的底层设备普遍采用廉价商用硬件,故障率较高,因此,如何在节点失效成为一种常见问题的场景下保证存储数据的完整性与可靠性成为了首要问题。为了防止由节点故障导致的数据失效所引起的业务损失,分布式
随着网上信息量的急剧增加,信息过载问题成为了制约网络发展的一个重要因素。个性化推荐系统作为解决信息过载问题的有效手段,得到了工业界和学术界越来越多地关注和研究。图作为一种重要的数据结构,可以表示一组对象及其之间的复杂关系。随着人工智能的发展,可以有效提取图中特征表示的图神经网络被提出,并在生物化学、经济金融等领域取得了显著的研究成果。推荐系统中的大部分数据本质上具有图结构,将图神经网络应用于推荐系
针对在噪声、混响等环境下语音识别系统识别率严重下降的问题,本文以深度学习和麦克风阵列信号处理作为主要技术方法,讨论并研究了若干鲁棒语音识别中的关键技术。论文的主要工作与贡献如下:(1)搭建了一个基于混合声学模型的语音识别系统,通过实验,研究了三音素上下文建模、深度神经网络、特征变换技术对识别率所带来的影响,并且评估了这些技术在混响噪声环境下的鲁棒性;(2)在流式语音识别的实际应用中,通常要求系统的
随着互联网技术的应用,在线教育领域得到迅速的发展,人们获取知识的途径也变得更加便利。网上用户可以灵活地通过在线学习平台上获取学习资源,并进行在线课程学习。在大数据时代,随着在线学习用户人数不断地增多,学习者在面对海量学习资源的数据时,需要花费较多时间和精力去筛选课程的相关内容。而推荐系统是能够处理这些“信息过载”问题的有用方法之一,能够为学习者提供个性化在线学习资源课程推荐服务。尽管推荐算法在其他
随着我国锚杆支护理论和设计方法的不断完善,新的支护材料和支护器材不断研制成功并投入使用,在基础设施建设如边坡、堤坝等方面发挥着重要作用,应用也越来越广泛。但在锚杆使用过程中,由于实际工程难免受到各种复杂环境的影响,对工程的质量把控比较困难,从而可能导致工程质量问题的发生。在大量使用锚杆的情况下,锚杆锚固的施工是否起到了加固作用不仅影响着设施工程的整体质量,也影响着人民的生命和财产安全,因此对于锚杆
知识追踪是教育数据挖掘领域中一个重要的任务,其主要内容是根据学生的历史做题序列对学生的知识点掌握情况进行建模,从而预测学生的学习表现。在智能辅导系统中,一个非常重要的任务是了解学生的知识点掌握情况,只有了解每个学生的具体情况后才使得针对性、个性化的辅导成为可能。智能辅导系统通过知识追踪可以获取学生的当前表现,随后可通过个性化习题推荐等功能来提高学生的学习表现,因此研究知识追踪任务具有重要的意义。知
当今社会在高速发展的同时伴随着信息数据的爆炸式增长,在信息传递的过程中,语言是极为重要的载体。在所有种类的交流语言中,英语始终占据着重要的地位,是社会生活中最为常用的语言之一,因此英语教育的现实意义不言而喻。随着互联网的全面普及,英语教学早已不再依赖教师的板书,考试方式也逐渐过渡到全面无纸化。借助自然语言处理中的技术手段,设计一种英语文本语法错误自动纠正模型可以大幅减少教师在作文批改上的工作量,辅
随着在线教育不断发展,提高在线教学质量是教育行业高质量发展的有效手段。本文对学习者在网络学习平台中产生的多维时序数据进行协同分析,挖掘学习者的学习模式,研究学习路径规划算法,并推荐符合学习者学习习惯和认知水平的学习路径,利用在线教育巩固线下教学,提高教学质量。本文提出了两种学习路径规划算法,主要针对两个方面的问题进行研究,内容如下:1.针对在线学习者希望利用最优的学习路径和最少的学习时间掌握更多知