论文部分内容阅读
随着大数据和云计算等计算机技术的发展,以语义技术为基础的人工智能应用正在不断改变着人们的认知方式和生活方式,提供高效、智能和语义相关的自然语言处理技术有助于相关领域的快速发展,而基于语义的中文文本分类技术是中文自然语言处理和语义理解的关键性和基础性工作。传统的文本挖掘和分类技术仅考虑文本词汇的重复程度,无法准确理解词语上下文环境,存在对自然语言中的上下文语境、省略和句法等语义关系的信息处理的缺失等问题,导致分析结果不够准确、处理效率低下等问题。近年来,随着深度学习技术的兴起,基于神经网络的中文信息处理技术得到了广泛的关注和研究。为解决传统中文文本处理技术和方法存在的语义和句法信息缺失问题,本文将基于神经网络的语义技术及其相关算法引入到文本分类研究中,同时完善与改进中文文本语义相似度计算方法。论文的主要研究内容包括探索与改进基于词向量的文本语义相似度计算方法,提高文本语义相似度计算的准确性;在文本语义表征和计算的基础上探索与改进基于神经网络的文档文本语义向量生成模型和基于语义向量的中文文本分类相关算法,提高文本语义特征表达的准确性,促进文本分类效果的提升。本文以研究基于词向量的中文文本语义相似度计算方法及基于文本语义向量的中文文本分类方法为主要内容,具体包括对语义相似度计算理论进行了系统的阐述,从语言模型的角度对神经网络语言模型、循环神经网络语言模型等进行了全面的梳理,并详细推导了CBOW和Skip-gram两种word2vec的词向量生成方法,考虑不同词语在表征文本方面的权重差异,在对文本段落向量或文档向量生成模型(doc2vec)系统阐述的基础上,提出了一种结合语料库全局信息的文档文本向量生成模型,该模型通过文档的词语信息和语料库的全局信息来训练生成新的段落向量,利用数据正则化优选文档中的词语特征来选取词向量的最显著特征,然后借助哈夫曼编码和层次归一化(Hierarchical Softmax)来求解模型的具体参数和生成可以表征文本信息的语义向量;最后在对传统的文本分类流程进行介绍的基础上,优化与改进了基于词向量的文本语义相似度计算方法和基于语义向量的文本分类算法,并用实验验证了相关算法的准确性。