基于深度学习的短文本自动摘要方法研究

来源 :北京邮电大学 | 被引量 : 13次 | 上传用户:Gzliao1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着新媒体平台的不断涌现,人们日常接触到的信息呈现爆炸式的增长,从而给人们带来信息过载的困扰,并且随着生活节奏的加快,人们无暇梳理接收到的所有信息。通过阅读摘要,人们能够提高理解原文的效率,有效减少浏览信息的时间和精力。随着深度学习的崛起,越来越多的研究者利用深度学习的方法生成文档的摘要,并逐步应用于实际系统中。因此,本文在深度学习基础上研究短文本的语义表示以及基于序列到序列架构的自动摘要方法,并将短文本的语义表示应用于自动摘要任务中。目前无监督的文本表示方法主要包括向量空间模型和doc2vec等。这类方法在语料库规模较大时能够取得很好的效果,却忽略了文本中的词序信息。针对这个问题,本文提出无监督模型RevONet,考虑词序特征,利用卷积神经网络学习文档的语义表示,并在文本分类任务中,与词频、词频逆文档频率、LDA、LSI、doc2vec等进行对比。实验结果表明,RevONet模型能够达到78.7%的准确率,优于向量空间模型和doc2vec等,验证了RevONet模型在语义表示上的有效性,并应用于自动摘要任务中,衡量源文本与目标摘要之间的语义相似性。根据文本摘要的特点,本文在序列到序列架构的基础上提出最大化文档相似度模型DocSNet。DocSNet模型利用RevONet模型提取的源文本语义表示,计算与目标摘要之间的相似性,通过最大化源文本与目标摘要之间的语义相似性优化模型,进一步生成摘要。对于序列到序列架构,DocSNet模型使用双向LSTM作为编码器,单向LSTM为解码器构建模型。不仅如此,DocSNet模型引入注意力机制,进一步提高生成摘要的质量。通过在哈尔滨工业大学发布的大规模中文短文本摘要数据集上的实验,DocSNet模型的ROUGE-1和ROUGE-L指标分别可以达到33.6%和30.4%验证了DocSNet模型的有效性。
其他文献
本文从历时与共时、句子成分的再分析与句法结构的重组、词义演化与词义选择等三个方面讨论了这两种理论的差异,指出了二者不同的理论体系和研究范围;语法隐喻形成的句法结构变
目的探讨以化瘀通络为组方原则的愈痫灵 (YXL)颗粒剂对慢性致痫大鼠氨基酸含量的影响。方法采用腹腔注射戊四氮 (PTZ)造成慢性癫痫大鼠模型 ,以高效液相色谱法 (HPLC)检测海
咳嗽性晕厥属于血管反射性晕厥的一种类型。咳嗽性晕厥在临床上并不多见,多表现为咳嗽后突发意识丧失、晕倒在地、迅速苏醒、少有后遗症等特点,诊断不难。但一般医生中少有目
非婚生子女是一个特殊的弱势群体,其法律地位及保护问题也是一个突出的社会问题。基于此,在以"子女最大利益原则"指导下,建立非婚生子女认领制度与准正制度,可以充分维护非婚
垛木房是木材资源丰富地区的一种民居建造形式。我国木材资源宝贵,垛木房大量使用原木材料导致森林资源浪费和垛木房成本升高。近年来,我国康养及旅游产业逐渐成熟,垛木房需
<正>1.电子书包稳抓内容、平台、终端近日",电子书包"数字化教材研发会在上海举行,将早已成为社会焦点的"电子书包"话题再次引爆。作为官方层面力推的国内首个"电子书包"试点
现代汉语的介词多是由动词语法化(虚化)而来,"问"也不例外."a问c日b"句式是"问"字语法化的基础.在这一句式的频繁使用中,"问"字语义泛化,削弱了"问"的动词性,使其"询问"义消
关键的话暧昧地说、后说,或不说;人和物本身并不重要,重要的是人和物处于什么状态、做了什么动作;一口气解决相关的所有问题,这是日本民族的特殊思维模式。它反映在日语文字