论文部分内容阅读
中文短文本语义相似度计算方法研究是自然语言处理技术的基础。现有方法存在以下问题:在字词语义表征层面,中文字、词通常具有多个释义,而目前常用方法获取的字词向量不能蕴含字词的全部释义信息。在计算模型层面,已有相似度计算方法不能捕获文本中词汇之间的依赖关系和内部结构对文本语义的贡献;另外,认为字词向量表征唯一,不能根据语境选择不同的字词向量。本文针对以上问题,主要做了以下工作:(1)构建了汉字相关信息数据集和词汇相关信息数据集:①基于爬虫获取“现代汉语字典”中20902个汉字的读音、偏旁、五笔、五行、基本释义、详细释义等信息,其中3587个常用字的数据集包含23821条字义文本。②构建爬虫从“百度汉语”中获取56008个常用词语的基本释义48392条和例句32708条。为字词向量表征和词义消歧提供数据支持。(2)构建了字词义向量模型和字词向量模型。本文利用现代汉语字典中对字的语义描述信息来获得字向量。构建了基于全连接自编码器的字词义向量模型,将每条字义文本映射成256维字义向量。构建了基于全连接自编码器的字词向量模型对每个字的64个字义向量作进一步语义映射,得到每个字的256维字向量,为语义相似度计算模型提供初始化向量。上述模型也适用于词。(3)构建了基于多头self-Attention的中文短文本语义相似度计算双序列模型。self-Attention机制可以考虑到文本中不同词汇对文本自身语义的贡献度不同。本文构建基于多头self-Attention的双序列模型,并与基于LSTM的双序列模型和基于CNN的双序列模型进行比较。在文本对的训练中间结果中引入结果的方差和乘积以放大两个文本的差异性和相似性。对三个模型进行测试,结果表明,基于多头self-Attention的模型在整体表现上优于其他两个模型;在小数据集上(26条数据)基于多头self-Attention的模型的F1值高出其他两个模型32%。(4)构建了基于词义消歧的中文短文本语义相似度计算模型。本文构建基于Seq2Seq的词义消歧模型,用以根据语境动态选择词汇的词向量。在SemEval-2007 Task#5任务中,基于Seq2Seq的词义消歧模型与其它四种消歧方法中的最优方法相比消歧准确率提高了 11.48%。用消歧后的词向量进行余弦相似度计算,其准确度可以达到72.37%,与基于词频的余弦相似度计算方法相比,准确度提高了3.42%。(5)对短文本语义相似度计算方法进行了评估,构建了支持主观题自动阅卷的考试系统。采用本文构建的基于多头self-Attention的双序列模型进行主观题阅卷,用其对575条学生答案进行评分,评分与教师所给真实分数之间的皮尔逊相关系数为0.6541,比基于词义消歧的方法高0.2035。