论文部分内容阅读
释义文本判别指判定两个文本片段在语义上是否具有一致性,其本质是判别文本间语义的匹配。释义文本判别是信息检索、机器翻译、自动问答和复述问题等研究领域的基础,是自然语言理解的关键技术和基础研究。本文以深度学习框架下的释义文本判别为研究对象,以提高释义文本判别的性能为目标,关注释义文本判别中基于文本语义特征的多层神经网络的构建、释义语料的自动生成和多句法特征上语义交互的深度文本释义判别模型的建模问题。本文主要从以下三个方面进行研究:1)针对释义文本判别任务中带有精确标签的语料数据少、真实释义语料获取困难,人工模拟构造成本高昂且耗时长等问题,本文提出基于生成对抗网络的释义语料生成模型PTGM-GAN(Paraphrase Text Generation Model-Generative Adversarial Networks),在生成对抗网络的框架下,将释义语料的自动构建,建模为释义文本自动生成问题,生成器以原始句子为指导生成释义文本,判别器采用卷积神经网络,以句对为输入进行判别模型的训练,并通过判别器来对生成器所生成的文本进行反馈,直到二者达到均衡状态。实验以先进的文本生成方法Seq2Seq模型以及VAE-SVG为基线方法,在微软的MSCOCO标题数据集和Quora问题数据集的实验证明了PTGM-GAN的有效性。2)针对不考虑文本语义匹配的方法在释义判别中性能欠佳的问题,本文提出了融合词汇与语义特征的深度释义文本判别模型DPIM-MLSF(Deep Paraphrase Identification Model-Merging Lexical and Semantics Features),通过引入以机器翻译的METEOR评价指标为代表的基于知识库的语义特征捕获文本的语义匹配,结合传统基于词匹配的特征,构建多层神经网络。在微软释义数据集MSRP和释义抄袭检测数据集PAN2010上的实验结果表明,与单纯基于词汇匹配或语义匹配的方法以及典型的分类模型SVM、Bagging和AdaBoost对比,本文模型均取得了更优的F1值。3)针对句法与语义交互的深度释义判别模型仅实现了相同句法特征上语义的交互问题,本文提出了多句法特征上语义交互的深度释义文本判别模型DPIM-ISMSF(Deep Paraphrase Identification Model-Interacting Semantics on Multi-Syntantic Features),建模不同句法特征上语义的交互,并对文本间不同的句法角色进行再交互,融合2)提出的有效特征的多层神经网络,实现释义文本的判别。在微软释义数据集MSRP、释义抄袭检测数据集PAN2010以及通过1)所扩展数据集MSRP+和PAN2010+上的实验验证了该模型的有效性。