【摘 要】
:
近些年来随着信息的传递的形式越来越丰富,文本作为信息传递主体之一发挥着越来越大的作用,人们对文本内容的要求越来越高。现如今文本内容产生主要方式是人工产生,通过该方式产生的文本,从速度和质量上都远远满足不了人们需求。为了解决文本生成开销大、质量低的问题,近些年来很多学者及其团队都致力于文本生成领域的研究,将最新的深度学习自然语言处理技术应用于文本生成领域,通过提出准确性高文本生成技术使文本生成变得省
论文部分内容阅读
近些年来随着信息的传递的形式越来越丰富,文本作为信息传递主体之一发挥着越来越大的作用,人们对文本内容的要求越来越高。现如今文本内容产生主要方式是人工产生,通过该方式产生的文本,从速度和质量上都远远满足不了人们需求。为了解决文本生成开销大、质量低的问题,近些年来很多学者及其团队都致力于文本生成领域的研究,将最新的深度学习自然语言处理技术应用于文本生成领域,通过提出准确性高文本生成技术使文本生成变得省时省力,提高生活质量和工作效率。在分析生成模型基础之上,本文设计与实现了三种文本生成方案。第一种方案,根提经典生成模型LSTM结构提出基于LSTM的文本生成方案,LSTM是自然语言处理任务中比较经典和常用的结构,在该方案中,使用Word2vec方法构建文本中单词语句的向量表示,使用序列到序列的结构作为模型的基本结构,在编码器-解码器的基本结构中添加了注意力机制,同时使用了常用的Beam Search来进行解码。由于LSTM生成结构自身的特性,导致生成语句句式单一。本文对不同生成模型进行研究,提出第二种方案,使用CVAE为基本的生成模型,设计和实现了基于CVAE的文本生成方案,CVAE是将输入映射到一个分布中再从分布中采样进行语句生成,从而使得解码器输出的语句也更加丰富,解决了第一种方案生成语句句式单一的问题。CVAE结构存在KL消失问题,从而导致部分生成语句与输入毫无关联。本文对CVAE结构中存在的KL消失问题进行了分析与研究,提出了第三种方案基于Self-CVAE的文本生成方案,该方案在CVAE文本生成方案的基础上添加一个新的网络结构——自标签网络,辅助CVAE生成语句,基于Self-CVAE的文本生成方案结合了基于LSTM的文本生成方案和基于CVAE的文本生成功能方案的优势。最后将基于Self-CVAE的文本生成方案应用在智能对话助手中,进行文本生成。本文在四个数据集上对三种方案进行了实验,实验结果表明基于Self-CVAE的文本生成方案与基于LSTM的文本生成方案效相比,在生成语句准确性上提升了10.2%,在生成语句多样性上提升了48.2%;基于Self-CVAE的文本生成方案与基于CVAE的文本生成方案相比,在生成语句准确性上提升了6.1%,在生成语句多样性上提升了24.5%。基于Self-CVAE的文本生成方案比另外两种方案在生成语句准确性和多样性上都有提升。将基于Self-CVAE的文本生成方案应用在智能对话助手中,比原有文本生成方案生成的语句更加丰富。
其他文献
自2005年人民币汇改之后,人民币进入升值通道,同时,加工贸易进出口规模比重与加工贸易顺差也在不断下降。有很多主流观点认为,加工贸易的进口主要是为了出口,从进出口价格来看,人民币升值使得加工贸易进口成本的下降与出口金额的减少相抵消,人民币实际有效汇率的变动不会显著影响加工贸易。但是实际数据显示,人民币汇率对加工贸易进出口确实存在显著影响。人民币汇率是怎样影响加工贸易的?本文选取了2000年1月至2
随着互联网技术和经济的发展,互联网金融业异军突起,衍生出各种消费信贷产品如“京东白条”、“蚂蚁花呗”等,与此同时网络套现行为也随之而来。例如,有套现需求的用户通过套现中介“购买”虚假商品,并在支付页面选择“花呗”代付货款,待中介点“发货”后,用户立即点“确认收货”,此时“蚂蚁花呗”会向网店支付宝账户进行支付,中介在收取一定比例的“手续费”后,将其他款项转到用户的支付宝账户。这类恶意串通套取互联网金
中共十九大报告中将基本公共服务均等化实现分为两个阶段性目标,到2020年争取达到基本公共服务均等化总体实现,2020年到2035年基本公共服务均等化基本实现。今年是对第一阶段工作的验收之年,也是对第二阶段目标的展望之年。在供水服务均等化这一民生保障领域,江西省于2020年5月12日出台了《关于全面推行供水一体化的指导意见》,将供水一体化作为下一阶段供水服务均等化基本实现的政策指引,目的是形成打破区
随着中国互联网的高速发展和普及,信息传递的成本被压缩到有史以来的最低。在当今的互联网时代,信息生成的速度要远远高于过去任何时候,而互联网的便捷又会使得信息可以随意散播,因此在世界范围内,各国政府对于网络舆论的监督和管控都十分重。作为社交网络应用代表的新浪微博,其应用内言论传播的活跃程度,在舆论监管方面具有十分重要的意义。而短文本形式的微博博文,在主题模型的应用中因为文本过于稀疏,常常会导致主题发现
目的:分析肛瘘患者的中医体质分布类型和在性别、年龄、BMI、肛瘘分类、既往史等方面的分布规律,探讨两者相关性,为指导本病的个体调治原则、改善患者体质提供客观而量化的指标,完善本病中医发病机制的理论依据,并从中医体质学角度提供防治肛瘘的新思路。方法:基于《中医体质分类与判定》标准设计体质调查问卷,问卷内容包括饮食偏好、烟酒史、排便情况和中医体质判定,对2018年6月至2019年2月在上海中医药大学附
高等院校体育器材完备、体育场地集中,其主要的体育场馆承担着学生体育活动、体育教学、体育训练和体育比赛等服务,为增强学生体质、体育人才的培养提供了基本设施保障。但是
随着互联网的迅猛发展,智能客服和社交平台上产生和积累了大量的用户对话文本信息,通过有效的分析和处理这些对话文本,企业和商家可以为用户提供更优质的服务,具有极大的商业和学术价值。目前有关对话文本的研究工作相对较少并且具有较多难点。本文通过分析对话文本的文本特点,设计适用于对话文本的文本预处理流程,并详细介绍了文本预处理中各个阶段的方法,以及文本经过该阶段处理前后的变化,另外,本文也分析情感多分类中常
米尔贝霉素是一类十六元环大环内酯类的聚酮类化合物,根据化合物中是否具有氢化苯并呋喃结构,可将其简单分为α-型和β-型两类结构。由于α-型的活性远高于β-型,国内外研究以α-型为主。目前商业化市场的主流产品是C-5肟化的米尔贝霉素,是A3肟和A4肟的混合物,比例要求A3肟小于20%,A4肟大于80%,其活性高、毒性作用低、安全可靠、易降解以及对寄生虫有优良的防治效果,因而被广泛用于抗寄生虫药物。米尔
随着经济社会的发展,传统能源经过大量开采和利用后,呈现日益枯竭的趋势。因此,寻找新型的可再生能源成为了当前能源问题的重中之重。氢能是一种清洁能源,拥有储量大,高热高
近年来,钙钛矿材料的优异光电性能使其成为光伏和光电子领域研究的热点,基于有机-无机杂化钙钛矿材料太阳能电池的迅速发展,能量转换效率(Power Conversion Efficiency简称PCE)已达到23.7%。用无机Cs+阳离子取代有机基团,形成了全无机卤化铯铅钙钛矿(CsPbX3,X=ClxBryI1-x-y,0≤x,y≤1),基于CsPbX3钙钛矿纳米晶(Nanocrystals简称NC