论文部分内容阅读
随着互联网和移动终端的广泛使用,用户能够便捷地在互联网和移动平台上表达情感、观点和评论,从而产生了海量的文本信息资源。在这些文本中,短文本已经成为用户传递信息的主要载体,因此短文本的分析逐渐成为自然语言处理领域的研究热点。然而,对于短文本表达方式多样化、文法结构不规范的特点,传统的文本处理方法会导致文本特征表示稀疏、语义信息丢失的问题,导致中文分词中词典匹配失败和出现未登录词的问题,以及导致中文字词缺乏语义表示的问题,使得传统方法不能完全适用于对短文本的分析和计算。随着深度学习技术的兴起,特征表示学习逐步成为机器学习的一个新兴分支。因此,结合深度学习的方法,从语义特征表示入手,研究短文本计算涉及的相关问题,对短文本的分析和应用具有重要意义。针对上述短文本计算中存在的问题,本文根据短文本的特点,利用深度学习技术理论,在短文本计算涉及的文本语义表示、中文分词以及文本相似度计算等环节进行了分析和研究,最终形成一个完整的短文本计算框架。论文的主要研究内容及创新性工作如下:(1)针对传统表示方法中,字词表示缺乏语义依存关系的问题,提出了一种基于局部上下文和全局上下文的语义向量表示方法,实现从文本中提取对中文字和中文词的语义表示。该方法通过字或词在其上下文中的语义依存关系,构建了语义单元向量表示的神经网络模型,该模型包含了针对语义单元局部上下文和全局上下文的语义神经网络。采用无监督的学习方式,对字和词的语义向量表示进行训练,使其在上下文语境中具有不可替代性。该方法通过对大量中文文本的学习,得到了两组覆盖全面的中文字和中文词的低维度连续向量表示。实验结果表明:该向量表示蕴含有效的语义依存关系,有利于本文表示和模型计算。(2)针对传统中文分词方法中词典匹配失败和出现未登录词的问题,提出了一种基于中文字语义向量表示的中文分词方法。该方法以字在词中所处的位置作为标注目标,将分词问题转化为文本中字的序列标注问题。通过构建神经网络模型作为字的标注分类器,经过对字的上下文语义分析,从而得到该字在词中所处位置的估计,根据文本中标注的位置序列实现中文分词。通过分词模型中不同参数对分词效果的对比实验,构建了一个由最优参数组成的分词模型,与中科院分词系统、哈工大云平台和庖丁解牛分词工具的对比实验结果表明:利用该方法进行的中文分词结果具有更高的准确率和召回率。(3)针对传统文本表示方法对短文本表示造成的特征稀疏和语义丢失问题,提出了一种基于池化计算和层次递归自动编码器的短文本表示方法,并进行文本相似度计算。该方法通过词的语义向量表示,分别针对目标文本和候选文本中的相似语义词,使用加权平均池化的方式分别进行特征向量表示,该方法在保留语义的同时提高了文本表示速度。另外,将该方法得到的特征表示与层次递归自动编码器对短文本计算得到的特征表示进行融合,构建了短文本相似度计算框架。文本相似度计算实验结果表明:该框架有效的提高了相似度短文本的检索结果。最后,针对“生物医学信息检索”任务的实际需求,为解决信息检索时因缺乏专业领域词典和同义词表造成扩展词不足的问题,将提出的文本语义表示方法和短文本表示方法应用于查询扩展和相似度查询中,实现了基于短文本计算的生物医学信息检索系统。在BioASQ生物医学检索测评竞赛中,该系统有效的提高了检索结果,分获文档检索任务的2组第一名和2组第二名,文档片段检索任务的4组第二名。该应用实例进一步验证了本文所提方法的有效性。