【摘 要】
:
作文自动评分技术能够自动地对作文进行分析和评分,其已成为自然语言处理技术在教育领域应用的热点研究问题之一。自1966年提出以来,作文自动评分技术已成功地应用于美国教育考试服务中心、中国大学生英语等级考试等大型作文考试中,对作文评分起到了较好的辅助作用。作文自动评分不仅节约了人力物力成本,同时还大幅提高了作文评分的公平性和准确性。相比于传统的机器学习方法,基于深度学习的神经网络方法在作文评分任务中取
论文部分内容阅读
作文自动评分技术能够自动地对作文进行分析和评分,其已成为自然语言处理技术在教育领域应用的热点研究问题之一。自1966年提出以来,作文自动评分技术已成功地应用于美国教育考试服务中心、中国大学生英语等级考试等大型作文考试中,对作文评分起到了较好的辅助作用。作文自动评分不仅节约了人力物力成本,同时还大幅提高了作文评分的公平性和准确性。相比于传统的机器学习方法,基于深度学习的神经网络方法在作文评分任务中取得了较好的性能。但是,作文评分是一项复杂的人类行为,需要从不同层面对作文进行综合的评价,如作文主题、用词、修辞等都对作文的得分产生影响,因此单一神经网络模型的性能往往并不理想。其次,深层次的神经网络模型,其参数数量较多,在模型训练过程中需要更多的计算资源。另外,虽然预训练词向量在许多任务中取得了较好的表现,但是在作文自动评分中性能并不理想。针对上述问题,本文首先研究深层次和浅层语义特征对作文评分的性能影响;其次,研究了一种端到端的轻量级作文自动评分模型;再次,对预训练词向量带来的语义偏差问题进行了深入探讨;最后,本文在总结了前三部分作文自动评分方法优势的基础上,提出了一种基于异构网络融合的作文自动评分方法。本文的主要研究内容包括以下四个方面:(1)针对目前作文自动评分方法割裂了深层和浅层语义特征,忽视了多层次语义融合对作文评分影响的问题,本文提出了一种基于多层次语义特征的神经网络模型。首先,采用卷积神经网络捕获局部语义特征,采用混合神经网络捕获全局语义特征,从深层次获取作文语义特征;其次,利用篇章级的作文主题向量获取主题层特征;同时构建神经网络模型难以挖掘的语法错误等浅层语言学特征;最后通过特征融合对作文进行自动评分。实验结果验证了该算法在作文自动评分任务中的有效性。(2)针对当前基于深度学习的作文自动评分方法效率不足,以及特征工程的局限性,本文提出了一种基于注意力词嵌入网络的轻量级作文自动评分方法。该方法采用端到端的训练方式,不包含任何的特征工程,参数少且易于训练。实验结果表明该模型可以有效地对作文进行自动评分,且模型效率得到显著提高。(3)研究发现,由于预训练词向量的训练语料和作文语料在语义表达、语言风格等方面有较大区别,使用预训练词向量会带来语义偏差的问题。因此,本文提出一种基于混合词向量的作文自动评分模型,该方法同时包含预训练词嵌入和自训练词嵌入。实验结果表明本文模型可以有效缓解这种语义偏差问题。(4)针对目前作文自动评分方法缺少对不同结构神经网络的融合,以及忽视不同结构网络所提取的作文语义可以相互补充的问题,本文在总结了前三部分方法优势的基础上,提出了一种基于异构网络融合的作文自动评分方法,包括卷积神经网络、循环神经网络和自注意力网络。此外,通过对不同规模结构的预训练词向量进行实验,分析了不同预训练词向量和自训练词向量对作文自动评分性能的影响。
其他文献
此论文主要以写意人物画的表现形式对冬捕题材人物画进行创作和研究。通过吸收和借鉴优秀的冬捕题材写意人物画作品,体会其中的用笔用墨和造型特色,运动到自己的创作中,并在日常的创作实践中寻找自己冬捕题材写意人物画的创新之处,形成自己的绘画特点。本文内容共分为四个部分:第一部分为绪论部分,主要讲述冬捕题材写意人物画的选题来源、研究目的及手段、研究重点难度及创新之处。第二部分为冬捕题材写意人物画的分析与借鉴,
本文提出了一种带有滤波功能的宽带磁电偶极子天线。该天线由一对水平贴片和垂直短路贴片组成,由一条Γ型馈线同时对磁偶极子和电偶极子进行激励。通过将馈线短接,有效地提高了阻抗带宽,并且增强了上边带的边缘选择性。另外通过在馈线上加载四分之一波长开路枝节引入了零点,进一步提高了天线的带外抑制水平。通过电磁仿真软件对该天线模型进行仿真,结果显示,在1.35至3.03GHz的工作频段内,天线的阻抗带宽达到76.
为预测河流水质状况及水质的演变趋势,本文提出利用基于时间序列的CEEMDANN-BEATS的水质预测模型。以新疆阿勒泰地区额尔齐斯河水质监测数据为样本进行训练和验证,使用线性插值法补全存在的缺失值来提高水质数据的完整性。通过将溶解氧、氨氮含量、高锰酸钾质数等指标构成的时间序列分解为相应的水质参数分量来预测水质指标。实验结果表明,通过CEEMDAN-N-BEATS水质预测模型进行水质预测所产生的预测
机器阅读理解是自然语言处理领域的热门话题之一,其意义在于使机器理解文本语义并具备推理提炼文本信息并回答相关问题的能力。得益于深度学习技术的不断发展以及大量机器阅读理解数据集的发布,机器阅读理解的研究取得了很大的进展。但是,现有研究中采用的word2vec词嵌入技术存在长距离依赖、一词多义与未考虑中文分词特性等问题。同时,很多研究中使用的模型都是基于经典单一模型修改而来的,单一模型存在泛化能力不足且
随着科学技术的进步,大多数人都拥有智能机器或智能终端。以智能语音助手为例,只有能够对人类的情绪做出快速准确的评估,才能充分理解人类的情绪和意图,并产生更智能的反应。在智慧医疗中,对患者情绪状态的智能识别,有助于舒缓患者情绪,协助医生完善治疗方案。在智能交通中,实时监测驾驶员的情绪状态,如果发现异常情况,如醉酒、疲劳驾驶等,将第一时间发出提醒,有效避免交通事故。在人工智能时代,人机交互越来越普遍,用
互联网和社交媒体的快速发展促使网上新闻文本数据呈爆炸式增长,如何快速高效的获取所需信息已成为亟待解决的问题。自动文本摘要技术能够将冗长文本压缩处理为简洁连贯且不失原意的短文,从而加快人们获取信息的速度。基于Seq2Seq模型的生成式文本摘要模型取得了较好的效果,但这类模型大多采用教师指导的方式进行训练,这会导致曝光偏差问题。为此,文中探究了两种不同的解决方案:(1)借助对比学习技术,通过将目标序列
随着信息技术的发展,软件已被广泛使用,成为日常生活中不可或缺的一部分。随着软件的复杂度和多样性的提高,对软件质量的保障也提出了更高的要求。在软件工程中,软件缺陷预测技术可以识别软件模块中的可疑信息,通过有效分配测试资源,从而提升软件测试效率、保证软件质量。然而在实际应用中,新开发的项目因历史数据不足无法获得较好的性能,于是,跨项目软件缺陷预测技术成为学术界和工业界的研究热点。跨项目软件缺陷预测通过
关键词生成方法可以为一段文字或一个文档生成能代表其主题及主要信息的关键词。目前的关键词生成方法大多是应用循环神经网络结构,这种网络结构依赖于当前和先前时间步长的状态,存在文本长距离依赖限制的问题,且其顺序性也排除了训练样本的并行化。同时存在文本词嵌入表示不够精确、泛化性能差以及训练成本高等问题,限制了文本关键词生成性能的提升。针对这些问题,论文做了以下研究:(1)针对长距离依赖限制、词嵌入表示不够
随着5 G、物联网、大数据、互联网等新兴科技的普及,城市的信息化程度日益提升,智慧城市也随之出现。在智慧城市推进进程中,刑事案件、恐怖袭击、社会动乱等社会安全风险与隐患也日益严峻,加强城市公共安全变得尤为重要。在现实生活中,公共安全事件具有信息不对称性、突发性、随机性,同时安防部门拥有的防护资源是有限的,不能对所有保护目标进行24小时全方位的保护。因此,如何选择最优防御行动策略、信号策略进行有限安
学生在课堂上的情绪往往是其学习状态最直接的反映,教师可以通过学生的情绪表现及时调整教学方法,提高教学效率。但在课堂中,由于学生人数众多导致教师无法有效的在授课的同时兼顾对学生学习情绪的感知;传统的教学质量评价方法是以听课评课和作业成绩等结果性数据作为指标,缺乏对学生学习状态的关注。因此利用人工智能技术帮助教师实时获取学生情感状态,进而识别学生的学习状态,对于教师的教学活动组织、教学质量评估都有非常