基于集成深度学习的文本匹配研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:zhangwz2005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着我国信息化建设的逐渐完善,人们需要更智能和准确的信息检索和自动问答等人工智能领域的服务。为了不断提高算法的性能来提供更高效和舒适的服务,大量研究者投入到了自然语言处理的研究中。文本匹配是自然语言处理领域的核心和基础问题,经历了从早期的基于统计的传统文本匹配方法到近年来的深度文本匹配方法。本文研究了当前流行的几类深度学习文本匹配方法,包括单语义表达的文本匹配、多语义表达的文本匹配和注意力机制的文本匹配。在当前广泛使用的算法的基础上提出了多通道匹配金字塔模型、循环注意力机制的文本匹配模型和动态参数的模型堆叠集成算法,本文的主要工作包括:首先,提出了多通道匹配金字塔模型(MCMP),MCMP模型属于多语义表达的文本匹配模型,针对现有的多数基于表达的文本匹配模型在匹配过程中存在的信息丢失等问题,MCMP模型融合了多个通道,分别获取词语的匹配分数、词语重要性、上下文相关信息和位置信息。实验结果表明,MCMP模型在两组实验数据的各项指标上均优于其它基于表达的文本匹配模型,证明融合多通道的文本匹配方法是有效的。其次,提出了循环注意力机制的文本匹配模型(RAMM),RAMM模型由多个结构相同的匹配模块组成,每个模块均使用注意力机制的方法进行匹配和编码,从而得到多层次的匹配信息。并融合多层次的语义匹配信息,得到最后的结果。实验表明,RAMM模型在两组实验数据中的各项指标均明显优于其它注意力机制的文本匹配模型,证明获取多层次的语义匹配信息是有效的。最后,提出了动态参数的模型堆叠集成算法(DPStacking)。针对Stacking集成算法的次级模型无法学习到原始的文本特征,DPStacking集成算法通过参数生成器生成次级模型的参数,参数生成器的输入为文本的统计特征。这样的设计,一方面可以让次级模型学习到原始的文本特征和真实标签之间的联系。另一方面,能让次级模型学习到原始的文本特征和各个初级模型性能之间的联系,根据文本的特征动态地生成各个初级模型的权重参数。本文对Bagging、Stacking和DPStacking等多种集成算法进行了实验对比,实验表明,DPStacking集成算法在两组实验数据的各项指标上均明显优于其它集成学习算法。
其他文献
在市场竞争异常激烈的经济背景下,企业只有具备核心竞争力,才能在竞争中脱颖而出。良好的人力资源管理直接关系到企业能否留住人才、用好人才、培养人才,进而关系到企业的长期稳健发展。绩效管理是人力资源管理中的一项核心工作,对提升商业银行竞争能力发挥着越来越大的作用。商业银行的传统绩效管理方法已经无法适应新社会的竞争与需求,需制定更加完整、科学合理的绩效管理体系。目前,S支行员工的绩效管理更多体现于初级的部
<正> 李××,男,78岁。壹月前发现尿色发红如洗肉水样,无尿频、尿急、尿痛。在他院多次尿检示:红细胞满视野。曾用安络血等止血药,血尿未能消除。本院以血尿待查于1984年5月2
期刊
采用颗粒状活性炭,动态吸附处理味废水。对动态法的工艺条件进行了系统的研究。通过实验。确定该法最佳工艺条件:PH=4.50 ̄5.00、吸附等温方式q=19.6c^0.468、每千克活性炭可处理废水60L ̄80L,采用20%硫酸溶液对活性炭
<正> 我国明代伟大的航海家郑和的家世及宗教信仰,自云南昆阳发现明永乐三年(1405)李至刚撰《马公墓志铭》后(墓主即郑和之父马哈只),世人始知郑和原性马,出身于伊斯兰教世家
不整合脉型铀矿床产于古老的地台区或地盾区,具有内克拉通盆地和古裂谷的地质演化特点。铀的成矿有多期性。矿床受断裂构造带,太古代杂岩体和花岗岩带控制。铀工业富集形成于
膜技术在蛋白质的分离与纯化产品中发挥着关键作用,通过膜分离技术有可以效的提高蛋白质生产的效率和品质。本文围绕近年来压力驱动膜分离蛋白质技术的最新进展进行了综述,主
试验研究了添加不同调理剂及不同量调理剂对污泥中石油生物降解的影响。结果表明:添加调理剂可以显著地提高石油生物降解速率;几种调理剂之间比较,以木为最好,蛭石次之,稻草再次之
<正> 八正散出于《局方》,主治小便淋涩不通,小腹胀急,溺时有血而痛,口渴咽干的淋证。笔者以该方略事加减,药用:木通15克,车前子(包)、萹蓄草各10克,甘草梢5克,瞿麦、山栀各1
该文着重讲述了钛纳米聚合物加入涂料中所表现出来的特殊性能,并通过实际的工业应用,进一步证实钛纳米聚合物涂料的优越性能。