面向中学生议论文的文本生成方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:myywy123456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作文写作是语文教学中不可或缺的重要组成部分,写作能力是学生语文能力的综合体现。相比于通用领域的文本生成而言,中学生议论文话题范围相对更小、格式更加明确,对中学生议论文进行建模并研究相应文本生成方法,可以综合考察当前模型的语义理解能力,并为其他文本生成方法提供借鉴。本文研究如何在给定题目以及首尾段关键词后生成完整的中学生议论文。受限于训练集规模,直接进行长文本生成可能会导致方法性能不佳,因此将其拆分为基于题目及关键词的议论文首尾段生成任务、基于题目的论据匹配及论证生成任务分别进行研究。本文首先构建了议论文数据集和例证数据集用于后续研究。在生成议论文首尾段时,本文基于BART模型提出了句子语义相似度预测任务,并添加了扩展数据集。前者使模型可以在句子级信息的指导下进行文本生成,而后者可以让模型学到更多关于议论文语言模型的知识。实验结果表明,该方法可以让模型更好地学到句子级相关性,使得生成结果会在一定程度上引用训练集中出现的名人名言,增强结果的文学性。在进行论据匹配时,由于议论文题目本身具有高度的概括性,并且相同主题的文章往往使用相同的关键词,因此本任务相对简单。在进行实验后,选取TF-IDF方法进行匹配。进行论证生成时,本文提出了基于重写的方法引入指示编码和软模板匹配度预测任务,实验结果表明该方法使模型在生成的过程中会对软模板有一定参考,并且增强了模型生成结果的多样性。最后,本文构建了完整的议论文生成系统,并与人类写作结果进行对比,说明了方法的有效性。
其他文献
新时代新征程,建设宜居宜业和美乡村正当其时。文章从西安市高新区宜居宜业和美乡村建设现状出发,详细地分析了西安市高新区建设宜居宜业和美乡村存在思想认识有待提高、建设资金有待落实、村庄方案有待完善、建设标准有待提高的问题,有针对性地提出了深刻理解宜居宜业和美乡村建设内涵;聚焦特色产业,实现乡村村民增收;推进乡村创新改革,强化长效治理;改善高新区人居和人文环境的对策,以期加快西安市高新区宜居宜业和美乡村
期刊
数字出版技术场域的变迁与新兴科技的发展紧密关联,当下,AI、VR、云计算、区块链等新技术正不断推动数字出版的创新与发展。持续涌现的数字出版新技术使得儿童绘本的交互形式实现了从线性式、多媒体化向立体式、沉浸式与多模态化的转变。未来,随着数字出版技术的进一步更新与迭代,儿童绘本的交互性将全面升级——在VR、AI、数字孪生、数据挖掘、云存储等数智科技构建的数字出版新技术场域中,儿童绘本或将实现从图文、声
期刊
J凹陷二叠系L组非常规油气资源丰富,分布范围广,纵向发育多套有利层,叠加厚度大,凹陷东区目前已经实现开发,西区也具备良好的效益勘探前景。但J凹陷西区L组细粒沉积成因及分布规律不明朗,储层主控因素、分类评价及分布规律不清,这是当下急需解决的关键问题。本文依据岩心、测井、地震及室内实验等资料,以高分辨率层序地层学、储层地质学等理论为指导,将J凹陷西区L组划分为1个长期旋回,4个中期旋回,18个短期旋回
学位
随着手机等便携拍摄设备的普及,越来越多的人愿意选择自行拍摄照片并进行图像编辑,这其中就涉及到了一项重要的计算机视觉技术图像修复。本文主要对使用深度学习中的注意力机制方法进行图像修复进行了深入的研究。现有的图像修复方法在一些复杂大型孔洞上仍然存在填充结果不合理颜色模糊差异等问题。除此之外,现在手机的像素也变得越来越高,人们对于现有的图像修复方法达到的效果逐渐不满意。图像修复任务在现实生活中应用最广泛
学位
声学场景分类(Acoustic Scene Classification,ASC)是一项对特定声学场景进行识别与分类的技术,其广泛应用于智慧城市、自动驾驶、安全监控等多个领域。近年来,越来越多的研究人员开始探索ASC领域,并提出了许多有效的模型,其中卷积神经网络(Convolutional Neural Network,CNN)凭借其强大的表达能力与突出的分类性能,成为本领域当前的主流方法之一。在
学位
学位
断裂在油气成藏与分布中起到了非常重要的作用。南堡4号构造变形复杂,大量的油气藏都围绕断裂分布。根据区域资料和地震资料的构造解释成果,从断裂发育特征、断裂形成与活动期次等方面对4号构造带进行分析,划分了断裂系统,通过断裂系统与源储的时空配置关系,划分油源断裂,结合区域油水分布规律,从油源断裂、断-盖配置、交叉断层、断隆配置等方面分析了断裂对油气输导的控制作用,研究表明:南堡凹陷垂向上可以划分出断陷构
学位
随着信息化技术的不断发展,中文文本数量呈爆炸式增长的趋势。与文本数量一同增长的是文本当中的错字数量。文本中的错别字可能会带来不良的社会影响与经济影响,这体现在众多行业当中,例如教育行业、司法行业、新闻行业等等。在计算机技术得到发展之前,中文文本校对几乎完全依赖人工手动校对。人工手动校对的方式不仅耗时耗力,正确率也得不到保证。特别是当文本数量大到一定程度时,人工校对几乎变成了一件不可能的事情。因此,
学位
查询优化器是数据库中的重要组件,负责为用户输入的查询寻找高效的执行计划。数据库中通常使用基于代价的查询优化器,由基数估计、代价模型和计划枚举组成。基数估计给出中间操作的元组数目估计,代价模型使用这个估计建立查询的执行代价,计划枚举枚举出代价最小的计划。由于基数估计和代价模型并不准确,优化器有可能得到较差的计划。基数估计和代价模型也是学术界最受关注的两个问题。已有工作使用机器学习模型来试图解决。但仍
学位
探讨图画书叙事与书籍形态设计之间的内在关联,凸显纸本图画书区别于电子书籍的媒介优势。基于故事类图画书的叙事特色,探讨书籍外部造型、书芯、装订、材质等书籍形态设计要素与图画书叙事的主题形象、情节、结构、细节等的内在关系,进而通过书籍形态设计提升图画书的叙事表达。得到基于叙事的纸本图画书形态设计思路与方法。该方法能够发挥纸本图画书的媒介优势,提升叙事表达与效果,深化作品主题,为数字媒介冲击下的纸质图画
期刊