【摘 要】
:
写作是作者根据自身积累、思考感悟运用语言文字来表达自身思想感情的过程,是一种极具创造性的脑力劳动。智能写作是指使用人工智能技术为作者提供辅助,从而降低写作门槛,提升作者的写作效率与创作体验,在更短时间内创作更多优秀的文艺作品,最终实现生产力的提高。本文针对嵌套命名实体识别、文本重排序和数字生成这三个智能写作所需的支撑性技术进行了研究。(1)嵌套命名实体识别。嵌套命名实体往往具有丰富的文本内涵,在文
论文部分内容阅读
写作是作者根据自身积累、思考感悟运用语言文字来表达自身思想感情的过程,是一种极具创造性的脑力劳动。智能写作是指使用人工智能技术为作者提供辅助,从而降低写作门槛,提升作者的写作效率与创作体验,在更短时间内创作更多优秀的文艺作品,最终实现生产力的提高。本文针对嵌套命名实体识别、文本重排序和数字生成这三个智能写作所需的支撑性技术进行了研究。(1)嵌套命名实体识别。嵌套命名实体往往具有丰富的文本内涵,在文本中具有重要地位,被认为是保持语义连贯性的关键。提取并收集作者文本中出现的命名实体构成实体链,可用于指导后续的生成过程,获得主旨更为一致、语义更为连贯的生成结果。本文提出了一个基于BERT的图神经网络模型来完成嵌套命名实体识别任务。该模型首先使用BERT为输入文本进行编码,获得每个单词的向量表示。然后使用图神经网络模块对文本中单词之间的依赖关系进行进一步的建模,更新单词的向量表示。最后使用区域分类器枚举所有可能的文本片段进行实体提取。本文在ACE2004等六个数据集上进行了实验,实验结果表明,本文提出的方法较基线模型在大部分指标上有着更好的成绩,且在推理速度上占有优势。(2)文本重排序。生成模型常用的采样方法在利用随机性获得更为多样的生成结果时,难免有质量较低的生成结果出现。文本重排序的作用就是根据输入的文本前缀,对生成模型的生成结果进行打分,按得分高低对结果进行排序,起到修饰生成结果、提高生成质量的作用。本文提出了基于BERT的信息交互重排序模型。该模型采用独立编码方式,使用两个BERT分别对文本前缀和后缀进行编码。采用Transformer解码器组成的信息交互层融合前缀和后缀的信息特征,以弥补独立编码造成的信息损失。最后使用前缀与后缀对应语义向量的内积作为匹配度得分。本文提出的模型在Dou Ban、RRS等数据集上同基线模型进行了实验并取得了更好的实验结果。消融实验的实验结果表明本文采用的In Batch Negative Sampling、正负样本数据增强等策略对提高模型实验效果有重要作用。(3)数字生成。生成模型的生成结果中出现数字是比较常见的现象。但由于训练语料中带数字的文本较少,生成模型训练不够充分,因此常有错误的、与语义不匹配的数字产生,这格外影响作者对生成结果的观感,极大地降低了生成质量。根据对错误样例的分析,本文提出了基于T5的数字生成模型。该模型采用联合学习架构,通过增加的数字合理性判别任务来加深模型对文本和数字语义的理解能力,通过生成数字的指数对数字的范围进行约束。在相关数据集上的实验结果证明,本文提出的数字生成模型有效地解决了数字生成问题。
其他文献
由于云计算的广泛应用,智能运维吸引了大量的关注,因为它可以协助运维工程师完成大规模云服务中的实时监控、事件分析和IT(Information Technology)服务自动化。智能运维平台是结合大数据和人工智能功能的软件系统,其工作流程一般包括四个阶段:安装配置、数据采集、数据处理和智能运维监测。随着智能运维平台越来越多的被使用,问答社区(Stack Overflow)出现了大量关于智能运维平台的
随着深度学习技术的迅速发展,对话系统也迅速成为学术界和工业界的研究热点。其中,对话系统的一个子领域——对话式推荐系统更是在近几年涌现出大量的工作。对话式推荐系统是对话系统和推荐系统的结合,同时兼具二者的特点。对话推荐系统的目标是通过自然语言的形式与用户进行交互,获取用户的需求和偏好,完成推荐任务。目标规划相当于对话式推荐中的对话策略模块,决定系统回复的对话目标,包括对话目标动作和对话目标主题。在目
数据不一致修复与评估一直是数据质量管理领域最重要的问题之一。随着物联网与移动网络的发展,边缘计算环境下的低数据质量问题,更提高了人们对数据不一致修复与评估的重视。但是过往的相关研究集中于单机环境或云计算环境下的解决方法。这迫使我们找到一种高效地、适合边缘计算环境的不一致修复与评估技术解决相关问题。针对边缘计算环境下的数据不一致修复与评估问题,本文研究并设计了一整套相关模型系统Ecc Dcr。主要工
视障儿童阅读的推广是全民阅读工作的重要组成部分。通过对目前视障儿童绘本资源、公共服务和法律法规3个维度的分析,探讨视障儿童绘本阅读生态重建的必要性。在此基础上,从“感官信息获取逻辑”和“绘本语义解码与建构”两个方面诠释了视障儿童多感官绘本阅读的行为。研究认为,绘本设计要综合考量视障儿童的生理特点,以其阅读感知特性推动绘本美学风格的转向,并通过“图+文+音”等多模态信息协同来构建认知的语境,丰富推理
随着移动终端的持续普及和网络技术的不断发展,短视频受到越来越多的民众的青睐,而“用短视频来学习”激发了用户对知识类短视频内容的关注度及需求。然而目前知识类短视频在平台中的组织形式比较单一,影响用户体验。而通过知识图谱的形式将其结构化组织起来已成为可能,这不仅为用户提供更好的知识获取体验,同时激发创作者创造优质知识内容,构建良性的知识分享生态。本文的主要研究内容是面向知识类短视频的多模态知识图谱的构
近年来,随着各种产业的发展,我们能够获得地带有时间戳的数据越来越多,人们也越来越重视这些数据中的时序特征带来的产业价值。对时序特征的研究能够从历史数据中挖掘出规律,进而用于对时间序列的分析和建模。对时间序列的研究中,异常检测是其中重要的一个分支。对时间序列进行异常检测能够对实时产生的数据进行监控,降低数据管理成本。同时也可以作为数据预处理的一环,提高机器学习模型所使用数据的质量。现在的工业时间序列
<正>党的二十大从战略和全局高度,对全面推进乡村振兴作出了重要部署,提出“巩固拓展脱贫攻坚成果,增强脱贫地区和脱贫群众内生发展动力”和“统筹乡村基础设施和公共服务布局,建设宜居宜业和美乡村”的重大任务,为当前和今后一个时期做好巩固拓展脱贫攻坚成果同乡村振兴有效衔接工作确立了目标、明确了任务、指明了方向。我们要深入学习贯彻党的二十大精神,深刻领悟“两个确立”的决定性意义,增强“四个意识”、坚定“四个
<正>中共中央总书记习近平在中共二十大报告中指出:“从现在起,中国共产党的中心任务就是团结带领全国各族人民全面建成社会主义现代化强国、实现第二个百年奋斗目标,以中国式现代化全面推进中华民族伟大复兴。”乡村振兴是实现中国式现代化的基础和重要内容。乡村振兴主要内容可以用六个字概括:产业、建设、治理。