基于深度学习的主题文本生成技术研究与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:sheng198208
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着技术的不断发展,人们对自然语言生成技术的需求也在不断更新,人们期望通过更少更简单的输入获得更高质量更丰富的信息,语义可控的文本生成技术研究重要性日益凸显,主题文本生成任务就是顺应这一趋势近年来新出现的自然语言生成研究领域的一个分支,根据指定的主题自动生成连贯通顺的文本。本文首先对现有主题文本生成技术进行研究。当前主题文本生成模型主要基于引入注意力机制的编解码器模型进行生成,模型可以基于主题词输出相关的文本,但是模型的生成质量有待进一步提升。其主要原因在于模型从输入中可以获取的主题信息十分有限,缺乏足够的信息引导模型生成连贯的、与主题相关的文本。针对这一问题,本文提出了一种基于语料库背景网络的主题文本生成模型,该模型利用语料库中的词语共现关系构建背景网络通过背景网络对输入的主题信息进行扩充,使用附加的主题信息引导引入注意力机制的编解码器模型生成文本。实验结果表明,该模型生成的文本有效提升了文本的连贯性、主题相关性等,在主观和客观的评价中均优于未引入语料库背景网络的模型。此外,通过对基于语料库的主题文本生成模型的进一步研究发现该模型虽然对文本生成质量有所提升,但实际仍然存在两个问题。第一是模型生成的文本由于语料库中缺乏常识信息对常识信息类主题词的生成效果不佳,第二是附加的主题信息受语料库分处理的影响,引入的附加信息可能存在偏差。针对以上问题,本文进一步对主题文本生成技术进行研究,提出了基于义原信息的主题文本生成模型。通过引入外部知识图谱HowNet中的义原信息扩充主题信息解决缺乏常识信息的问题,为对引入的义原信息进行控制防止噪声的引入,将非当前主题词的平均词向量作为当前主题的代表,通过计算其与不同义原的相似度对附加的义原信息进行选择。将融合义原的主题信息用于引导引入注意力机制的编解码器模型生成主题文本。实验表明该模型有效解决了之前研究中的问题,为模型的生成附加了有效的常识信息进一步提升了生成文本的完整性、连贯性,模型在主观和客观上的评价均优于未引入附加信息、基于语料库背景网络、基于ConceptNet知识图谱和基于HowNet不选择控制义原附加主题信息的模型。
其他文献
为研究甘孜松茸多糖(Tricholoma matsutake polysaccharide,TMP)的免疫调节作用,采用热水浸提法提取,经AB-8大孔吸附树脂脱除蛋白和色素后使用DEAE-52纤维素阴离子树脂进行分离;采用CCK-8法检测松茸多糖对小鼠巨噬细胞RAW264.7增殖影响,并研究在200、100、50、25、12.5 μg/mL和6.25 μg/mL的多糖干预条件下,RAW264.7细胞释放一氧化氮(NO)和分泌肿瘤坏死因子(TNF-α)及白细胞介素-6(IL-6)的能力,同时与脂多糖LPS阳
目的:研究青杠菌多糖的微波协助提取工艺以及抗氧化活性.方法:采用微波协助提取法和正交实验优化青杠菌粗多糖的提取工艺,借助紫外分光光度法测定青杠菌多糖清除1,1-二苯基-2-三硝基苯肼自由基(DPPH)、2,2-联氮-双-(3-乙基苯并噻唑啉-6-磺酸)二铵盐自由基(ABTS)以及羟自由基的能力.结果:微波协助提取青杠菌多糖的最优工艺为料液比1∶35(g/mL)、时间60 min、微波功率为500 W,其提取率可达(9.42±0.15)%,明显高于热水浸提法;青杠菌多糖清除DPPH自由基、ABTS自由基以及
为探究天然色素分子与多糖大分子的成膜性能和相互作用,增进多糖膜的多元化发展,以魔芋葡甘聚糖(KGM)和琼脂为成膜溶液的基材,引入天然色素栀子黄制备KGM基栀子黄膜,通过溶液流延法分析其成膜性,应用扫描电镜和红外光谱研究其微观结构和分子互作,采用质构仪检测膜的拉伸强度和断裂伸长率,并以水接触角分析仪和差示扫描量热仪分析膜的亲水性和热稳定性.结果 表明,所制备的栀子黄膜成膜性良好,颜色均匀柔和,微观结构均一、致密,无相分离,栀子黄在成膜溶液中溶解性和分散性良好;红外图谱表明栀子黄与KGM和琼脂分子间的化学结构
机车信号系统是中国列车控制系统(CTCS)中重要的通信设备,近几十年我国轨道网络发展迅猛,列车运营里程加长,行车密度增大,历经多次提速,对机车信号设备提出了更高要求。因此急需对机车信号解调算法进行改进并且对硬件进行升级,以适应高速铁路的需求。在调研了轨道电路工程的文献并参考信号处理方面最新的研究进展后,本文提出一套新的机车信号系统实现方案。在算法上,首先提出了基于局部均值分解的解调算法,并且改进了
有机-无机杂化钙钛矿具有结构可设计、电子与光学特性可调、载流子寿命长等优点,成为了众多光伏材料中最受欢迎的。然而有机-无机钙钛矿中的有机组分在高温和高湿环境下并不稳定。相比之下,全无机钙钛矿CsPbX3(X=I,Br,Cl)使用金属铯原子替代不稳定的有机组分而获得了较高的热稳定性,一些间接证据也表明这类材料可以具有同样出色的表现。因此,全无机金属卤化物钙钛矿正在迅速成为理想的替代材料并吸引着广大研
目的:探讨不同条件对湄潭白茶多糖抗氧化活性及稳定性的影响.方法:采用体外检测法评价湄潭白茶多糖的抗氧化活性,同时以清除DPPH自由基能力为指标,考察温度、pH值、紫外线、食品添加剂及金属离子等对其稳定性的影响.结果:湄潭白茶多糖具有一定的抗氧化作用,对DPPH·和·OH具有较好的清除能力;随着温度的升高,湄潭白茶多糖的抗氧化活性逐步降低;随紫外线照射时间的延长,湄潭白茶多糖对DPPH·清除率小幅度降低,而pH值的变化对湄潭白茶多糖DPPH·清除率具有较大影响;葡萄糖或蔗糖等食品添加剂对湄潭白茶多糖稳定性的
通过单因素和正交试验,结合模糊数学感官评价法对酵母抽提物(Yeast Extract,YE)在咸味奶茶中的添加条件(YE品种、添加量及减盐比例)进行优化,采用原子吸收法测定盐分(以钠离子计)变化,并采用智能感官评价设备(电子舌和电子鼻)以及顶空固相微萃取结合气质联用设备对比配方优化前后咸味奶茶的感官品质.结果 表明:选择饮料专用YE-S1添加量为0.4%,且减盐比例为10%时,获得的咸味奶茶综合感官评价最优,同时钠含量降低了11.66%.电子舌及电子鼻评价表明,添加YE辅助减盐前后的奶茶风味差异明显.气质
为探究西番莲果皮多糖的化学结构特点和流变学性能,以西番莲为原料,采用超声波辅助法提取、分离获得西番莲果皮多糖(Passiflora edulis Sims peel polysaccharide,PFSP80).采用红外光谱、凝胶色谱及气相色谱等方法分析PFSP80的化学结构,并通过流变仪测定PFSP80的流变学性能.结果 显示:组成PFSP80的单糖主要包括甘露糖、鼠李糖、半乳糖醛酸、葡萄糖、半乳糖、木糖和阿拉伯糖,其分子摩尔比为0.25∶0.18∶3.09∶1∶0.73∶0.46∶0.71.扫描电镜分
研究了紫山药、铁棍山药及菜山药3个品种中淀粉的化学成分、颗粒特性、结晶类型、糊化特性、黏度特性及体外消化性能.结果 表明:3种山药淀粉直链淀粉含量在10.09%~18.35%,其中铁棍山药淀粉的直链淀粉含量最高.3种山药淀粉的溶解度和膨胀力均随着温度的升高而增大.扫描电子显微镜显示3种山药淀粉颗粒均呈椭圆形或不规则卵形,粒径主要分布在19.01~26.20μm,呈单峰曲线变化.X-射线衍射结果显示3种淀粉的结晶类型均为C型,紫山药淀粉的结晶度最高为38.4%;差示扫描量热仪结果显示紫山药和菜山药淀粉具有较
研究不同提取溶剂对诺丽籽提取物中植物化合物的含量、组成及抗氧化能力、抑菌活性的影响.结果 表明:60%丙酮提取液中多酚含量最高达18.76 mg GAE/g DW,60%甲醇提取液中总黄酮含量最高,为10.68 mg RE/g DW;60%丙酮提取液具有较好的抗氧化能力(DPPH=99.09μmol TE/g DW,ABTS=69.01 μmol TE/g DW,FRAP=238.01 μmol/L Fe(Ⅱ)/g DW);以80%乙醇溶液为溶剂得到的诺丽籽提取液具有最强的抑菌活性.皮尔逊相关系数分析证实