【摘 要】
:
随着大数据时代的到来,文本已经成为互联网中最常见的数据形式之一。自然语言处理是人工智能领域的一个重要研究方向,帮助理解人类的文本信息,并且学会如何创作有意义的文本。作为自然语言处理研究的一个新兴课题,文本风格迁移(TST)任务旨在保留文本内容的前提下,对文本的风格进行转换。TST常见的应用场景包括但不仅限于:文本润色、对话系统、诗歌创作等。尽管前人已经在TST任务上进行了较为深入的探索,但是当前的
论文部分内容阅读
随着大数据时代的到来,文本已经成为互联网中最常见的数据形式之一。自然语言处理是人工智能领域的一个重要研究方向,帮助理解人类的文本信息,并且学会如何创作有意义的文本。作为自然语言处理研究的一个新兴课题,文本风格迁移(TST)任务旨在保留文本内容的前提下,对文本的风格进行转换。TST常见的应用场景包括但不仅限于:文本润色、对话系统、诗歌创作等。尽管前人已经在TST任务上进行了较为深入的探索,但是当前的TST方法仍然存在诸多挑战,包括:1)极度缺乏平行语料;2)缺乏非英语的语料数据;3)难以分离文本的内容与风格特征。为了解决以上挑战,本文针对TST任务进行了系统的研究,并且提出了以下的具体工作:针对平行语料匮乏以及非英语语料训练数据不足的问题,本文首先收集并建立了一个句子级别的“古汉语-现代汉语”平行语料库。在此数据集上,本文使用了基于Seq2Seq的编码-解码模型进行训练。为了获得更加优秀的风格迁移效果,本文引入了预训练模型UNILM和Guwen BERT。在文学和历史数据集上的实验结果表明,本文方法在人工评估和自动评估指标上都取得了最优的性能。针对难以分离文本的内容与风格的问题,本文提出了基于对比学习的Seq2Seq风格迁移方法。对比学习能够学习无平行语料数据的底层特征与分布,用于潜在分离文本的内容与风格。首先,通过回译的方法扩充训练语料,并基于对比学习在文本编码阶段区分文本的内容与风格。随后,使用基于内容-情感对偶编码的Seq2Seq模型,并结合风格分类器以指导文本的风格迁移过程。实验结果表明,本文方法可以产生更高质量的风格迁移文本。
其他文献
随着高速无线射频通信技术和集成电路的飞速发展,传统的并行数据传输方式已经难以满足远距离高速数据传输。Ser Des串行传输接口逐渐成为高速接口技术的研究热点,然而Ser Des电路内的信号发射模块以及接收模块,均需要非常精准稳定的时钟电路来配合数据完成正确收发,时钟信号抖动的大小直接影响数据收发的性能。本文设计实现了一种低噪声、快速锁定的高性能锁相环(PLL)芯片,应用于12.5Gbps的Ser
以离子作为驱动介质的电化学执行器(Electrochemical Actuators)因为具有质量轻,结构简单、驱动电压低、易于制造等优点,所以在柔性机器人、生物医学、微纳米操作等领域有着广泛的应用。尽管高效的电化学-力学效应特性使得离子电活性聚合物材料被认为是最适用于执行器电极的选择,但是聚合物在应力应变、响应速度、循环寿命等方面还存在着较大的挑战。本论文将基于芴基有机半导体材料的离子调控性能展
苏轼与李清照同为宋代词坛翘楚,在作词方式之上也有着各自独到的见解,呈现出明显不同的创作倾向。尽管苏轼和李清照在词的创作风貌上有着明显的差异,但是二人在根本上仍然存在很多的一致性。如果把词的题材内容,以及审美趣味等涉及思想层面的内容归为词之内在,把词的音律限制以及外在规范归为词之外在,从内外之分的区别上再去观察二人的词论,则更有助于探索二人词之内在关系。
目的 基于网络药理学及分子对接技术探究大黄治疗脓毒症的作用机制。方法 通过中药系统药理学数据库与分析平台(TCMSP)获取大黄的有效活性成分及其作用靶点;应用Cytoscape 3.9.1构建大黄–活性成分–靶点的网络图;检索GeneCards、OMIM、Drugbank、TTD数据库,得到脓毒症相关靶点;通过建立维恩图获得中药与疾病交叉的关键靶点;应用STRING平台构建关键靶点蛋白质相互作用(
树果自动采摘技术是智慧农业领域的研究热点,而树果准确的位置信息是采摘机器人成功采集树果的前提,本文研究基于双目视觉的树果定位算法。目前用于树果定位的算法主要有基于特征点匹配的树果定位算法和基于区域匹配的树果定位算法。基于特征点匹配的定位算法具有实时性好的优点,但由于光线变化和背景遮挡等原因,会造成果实中心点深度值缺失,以致无法定位;基于区域匹配的定位算法,对果实区域进行全像素匹配,定位准确性好,但
药物虚拟筛选旨在药物发现过程中使用计算机技术从化合物库中筛选出具有生物活性的小分子,从而大幅提高先导化合物的发现效率。药物分子可天然表示为图的结构,分子中的原子表示为图的节点,原子间的键表示为图的边,可以利用图神经网络端到端学习多层特征表示。针对新兴或者潜在的药物靶点进行药物开发是研究的热点,但虚拟筛选模型的成功往往依赖于大量的数据样本,当已知活性配体样本信息不充分时,配体虚拟筛选难于得到好的预测
单频窄线宽光纤激光器是一种高精密单纵模超窄线宽的激光光源。由于其具有较低的相位噪声,极窄的频谱线宽以及较长的相干长度等优点,所以它对高精密的震动较为敏感,并且保障了远距离传感的精度。因此单频窄线宽光纤激光器在远距离传感系统、空间激光通信技术、遥感技术以及相干激光雷达系统的高精度成像以及激光遥感的速度和距离探测等多个领域的应用有着重要的意义。目前在空间光通信发射系统以及激光遥感系统应用中其实现的难点
氮化镓(GaN)材料在最近20多年的半导体应用领域大放异彩,与碳化硅(Si C)一并,跻身当今世界第三代宽禁带半导体器件研发的前沿和热点。在传统LED照明、蓝绿光LD的基础上,GaN技术实现形态在科技与产能双驱动下不仅朝Mini/Micro LED显示方向进化,而且在功率、射频器件方面,其大功率、高频、高效表现,也在智能电网、5G通讯、新能源汽车、消费级电源等领域熠熠生辉。GaN基器件的迅猛发展,
聚芴类材料作为有机宽带隙发光的明星分子受到了人们的广泛研究,然而芴9号位上的sp~3碳十分活泼,往往在光照、加热、通电以及潮湿的环境中容易被氧化,从而形成三大绿光带之一的芴酮缺陷。本课题组前期已经设计并合成了抗热氧、抗水氧的共轭纳米聚合物PGDPF,这为目前聚芴类材料稳定性所面临的困境提出了新的解决方案。然而在光氧化研究中,PGDPF表现出较差的光氧化稳定性,本文对PGDPF在光氧化稳定性方面的反
动态磁共振成像是医学上的一种重要成像技术,其对比度高且无电离辐射等优点使其被广泛用于医学上的各种检测场景。由于物理层面的限制,在磁共振成像过程中,信号采集需要消耗很长时间,再加上人体容易进行非自主运动,导致成像的时空分辨率不高,因此动态磁共振成像在临床应用上有所限制。为此,减少扫描时间、加快成像速度是磁共振成像领域的一个重要研究方向。压缩感知能够利用磁共振图像的稀疏特性,以远小于Nyquist采样