中文短文本语义相似度计算方法研究

来源 :西安科技大学 | 被引量 : 0次 | 上传用户:infoerp2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文短文本语义相似度计算方法研究是自然语言处理技术的基础。现有方法存在以下问题:在字词语义表征层面,中文字、词通常具有多个释义,而目前常用方法获取的字词向量不能蕴含字词的全部释义信息。在计算模型层面,已有相似度计算方法不能捕获文本中词汇之间的依赖关系和内部结构对文本语义的贡献;另外,认为字词向量表征唯一,不能根据语境选择不同的字词向量。本文针对以上问题,主要做了以下工作:(1)构建了汉字相关信息数据集和词汇相关信息数据集:①基于爬虫获取“现代汉语字典”中20902个汉字的读音、偏旁、五笔、五行、基本释义、详细释义等信息,其中3587个常用字的数据集包含23821条字义文本。②构建爬虫从“百度汉语”中获取56008个常用词语的基本释义48392条和例句32708条。为字词向量表征和词义消歧提供数据支持。(2)构建了字词义向量模型和字词向量模型。本文利用现代汉语字典中对字的语义描述信息来获得字向量。构建了基于全连接自编码器的字词义向量模型,将每条字义文本映射成256维字义向量。构建了基于全连接自编码器的字词向量模型对每个字的64个字义向量作进一步语义映射,得到每个字的256维字向量,为语义相似度计算模型提供初始化向量。上述模型也适用于词。(3)构建了基于多头self-Attention的中文短文本语义相似度计算双序列模型。self-Attention机制可以考虑到文本中不同词汇对文本自身语义的贡献度不同。本文构建基于多头self-Attention的双序列模型,并与基于LSTM的双序列模型和基于CNN的双序列模型进行比较。在文本对的训练中间结果中引入结果的方差和乘积以放大两个文本的差异性和相似性。对三个模型进行测试,结果表明,基于多头self-Attention的模型在整体表现上优于其他两个模型;在小数据集上(26条数据)基于多头self-Attention的模型的F1值高出其他两个模型32%。(4)构建了基于词义消歧的中文短文本语义相似度计算模型。本文构建基于Seq2Seq的词义消歧模型,用以根据语境动态选择词汇的词向量。在SemEval-2007 Task#5任务中,基于Seq2Seq的词义消歧模型与其它四种消歧方法中的最优方法相比消歧准确率提高了 11.48%。用消歧后的词向量进行余弦相似度计算,其准确度可以达到72.37%,与基于词频的余弦相似度计算方法相比,准确度提高了3.42%。(5)对短文本语义相似度计算方法进行了评估,构建了支持主观题自动阅卷的考试系统。采用本文构建的基于多头self-Attention的双序列模型进行主观题阅卷,用其对575条学生答案进行评分,评分与教师所给真实分数之间的皮尔逊相关系数为0.6541,比基于词义消歧的方法高0.2035。
其他文献
针对基于传统数字全息重建算法对待测物体的不同纵向深度截面进行聚焦重构时,聚焦面物体会受到共轭像及背景离焦物体的干扰,本文提出基于压缩感知理论,构建单幅离轴菲涅耳数
美国基础教育评价改革的目标是建立基于课程标准的学生学业成就评价和教育绩效责任机制。学业评价体系的基本框架可划分为四大系统:绩效目标系统、评价系统、报告系统和支持
土地是一切人类赖以生存和发展的物质基础,是不可再生资源,也是社会经济发展的必要前提,然而,随着经济的发展、人口的增加、工业化和城市化的日益加剧,人类对土地资源的需求也与日
文章以宁夏发电集团为例,阐述了构建和实施集团企业财务集中管控体系的必要性,并对构建和实施前的准备工作和具体的实施措施进行了较为详细的论述和设想,提出了较为新颖的财
外部质量评价是德国职业学校保障教育质量的重要环节。本文以德国石勒苏益格—荷尔斯泰因州的"基于团队的职业学校外部质量评价"(EVIT-BS)为代表,对EVIT-BS评价标准的内容进
化学农药的使用,在挽回有害生物所造成的农产品产量损失、提高农产品的质量和商品价值、保障农产品市场供给和社会稳定等方面起到了不可替代的作用。但是在农药的使用过程中存
<正> 江苏省沿海滩涂面积大,资源丰富,开发前景很好。但目前开发中面临问题不少。一是某些岸段侵蚀严重,使很多良田减少,促淤保滩任务在不断增强;二是滩地严重盐碱化、沙化,
可视分析是一门由多学科交叉发展而来的新学科领域,在大规模数据理解、挖掘、网络数据分析中发挥着日益重要的作用。通过有效的可视化技术,用户参与到知识发现和数据挖掘的过
针对机器视觉检测TFT-LCD Mura缺陷时存在的图像整体亮度不均匀、背景复杂等影响检测准确性的问题,提出一种基于B样条曲面拟合的背景抑制方法。在最小二乘法准则的约束下,采