论文部分内容阅读
随着互联网时代的到来,文本类型的数据量有了爆发式的增长。面对海量文本数据,如何从其中提取出有意义的信息是自然语言处理的研究重点。近年来,随着深度学习的发展,神经网络在图像、语音等方面的研究均取得了较好的成果,在部分实际任务中,甚至可以达到或超越人类水平。然而在自然语言处理方面,由于语言的复杂性和抽象性,对语言的理解一直是人工智能领域较难突破的一部分。文本表示是大部分自然语言处理任务的基础。文本表示的核心是将自然语言转变为计算机可处理的形式,并保留文本对应的语义等信息,以便将其运用在具体的实际任务中。本文以神经网络为基础模型,以文本的特征表示为研究重点,针对不同层级和粒度的文本单元,提出基于神经网络的文本特征表示方法,对文本内部的特征进行提取,其主要的研究内容和创新点如下。1.基于字形结构的中文繁体字向量模型研究。本文针对中文繁体字,提出了一种基于文字图形特征的低于字符级别的字向量表示方式。通过对象形文字的字形特征学习,得到字形所表示的语义结构等信息,丰富了字向量的含义。在模型方面,首先提取中文繁体字的偏旁信息,使用连续词袋模型作为基础,将偏旁信息作为输入信息的一部分参与模型运算,根据上下文内容生成带有偏旁信息的字向量。另外,还尝试将汉字繁体字作为图片输入,使用基于卷积神经网络的自编码器,学习图片的结构特征,并将得到的特征向量和传统字向量合并运算,丰富了字向量的特征维度。在实验部分,提出解决一个实际的中文繁体字问题,即文言文句子边界识别问题。以模型生成的繁体字向量为基本的文本特征表示,使用序列标注方法对文言文句子进行边界识别。在海量文言文数据集中进行建模及测试,得到了较好的句子边界识别效果。2.基于字符的英文词向量解决序列标注任务研究。本文针对英文单词的构词法,提出了一种基于英文字符级别的单词向量表示方式。这种表示方式可以学习到字母之间的排序规则,并学习词语中大小写以及特殊字符的排列规律,将提取的特征和基础词向量联合表示,增强词表示的特征维度。该模型以卷积神经网络为基础,将单词的字母作为输入特征,进行字母间的关系学习,并将生成的向量和基础英文单词向量进行前后相连。生成的基于字符的英文词向量,在具有语义信息的基础上,还存在一定的字母排序特征信息。在实验部分,选择自然语言处理中基于词粒度的序列标注两个典型问题,命名实体识别问题和词性标注问题进行相关实验,实验结果证明了该模型的有效性和健壮性。3.基于注意力机制的句子向量表示方法研究。本文针对较高粒度的句子文本类型,提出了基于注意力机制的句子向量表示方法。首先提出一种基于编码器一分类器结构的句子通用向量表示,使用分类器代替解码器部分,极大的减少了模型的运算量,提高运算效率。模型中还加入了自注意力机制,将句子内部的词语进行划分,增强句子内部词语之间的依存关系,丰富句子的含义。另外,还提出了一种基于卷积神经网络的句子组向量表示方式,使用对称的卷积网络生成一组句子之间的关系。同样加入注意力机制,增强句子之间的语义关系,提高模型的效果。在实验部分,对通用句子特征表示进行了句子相关度计算和句子分类的实验。实验结果证明模型的通用性。针对句子组向量进行了句子相关性实验,提高了模型的准确性。本文以循环神经网络和卷积神经网络为模型基础,提出了基于字、词、句子,三个层次粒度的文本特征表示方法,并进行了相关实验。实验证明本文提出的模型,在文本信息标注、文本分类等问题,以及特殊应用场景下的实际问题,都取得了较好效果。