面向汉越新闻文档的摘要生成方法研究

来源 :昆明理工大学 | 被引量 : 0次 | 上传用户:li_qinglong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着“一带一路”建设的推进,中国与越南的双边合作交流更趋密切和深入,且涉及领域范围广泛,相关新闻报道日益增多,及时了解两国共同关注的热点新闻主要内容对双边合作意义重大。本文研究面向汉越双语新闻文档的摘要生成方法,旨在对汉越双语新闻进行总结提炼,提供一个简洁流畅的摘要系统。由于涉及不同语言的文本分析,本文将着重研究多语言文本间的关联关系对于摘要生成的影响,其面临的关键问题在于如何将汉越双语文本映射到同一空间下进行关联分析,如何从大量的新闻文档中识别重要信息并加以总结。近年来深度学习模型在多个领域展现出巨大的潜力,因此本文尝试探讨在深度学习框架下提升文本摘要性能的方案,主要完成了以下研究工作:1)提出基于句子关联性注意力机制的文本摘要生成方法。单文本摘要任务旨在对文档的内容总结归纳生成简短的摘要,表达原文中最重要的信息,其关键在于模型对源文档中句子重要性评估的有效程度。为了增强文本生成模型对句子级信息的识别能力,本文提出基于句子关联注意力机制的神经网络模型构建摘要生成框架。首先,使用分层的Bi-LSTM对文档进行编码,获取句子结构向量,然后通过门控网络分析句子间的关联关系,实现句子级别的重要性及冗余性评估,最后提出将句子关联性分析融入注意力机制中解码生成摘要。实验表明,本文提出的方法在多项ROUGE评价指标上取得了较好的效果。(2)提出基于要素关联注意力机制的汉越双语新闻文档摘要生成方法。汉越新闻文档摘要任务旨在对描述同一事件的双语新闻文档集中的句子进行分值排序抽取摘要,句子的分值在很大程度上依赖于句子在多语言文档集中的显著程度,因此涉及跨语言文档集相关性分析问题,考虑到相同新闻事件的要素信息具有一致性,本文提出在神经网络的注意力机制中融合双语要素特征进行关联分析,指导摘要生成。首先,依据词嵌入的向量表示及汉越词典,分析双语文本中要素共现程度、词频、句子位置及相关性等统计特征;然后,将其融入神经网络,提出基于双语要素的注意力机制设置句子重要性回归分值;最后,选取得分高的句子并依据相似性进行冗余筛选生成摘要。实验表明,本文提出的方法取得了较好的结果。(3)搭建汉越双语新闻文档摘要原型系统。摘要系统可同时分析提炼双语新闻文档集,自动选取与源文档关联性最强的内容,然后将其概括为短篇幅的文字,为用户呈现简短的概括总结。
其他文献
随着微电子技术及无线通信技术的进步,无线传感器网络(Wireless sensor network,WSN)作为一种新型网络愈发被社会所需要并广泛应用。WSN常用来代替人类监视如军事战场、复杂森林和灾害地区等偏远或危险区域。但由于传感器节点能量受限、计算资源匮乏等缺陷,在无人监管的情况下极易遭到攻击与损坏,所以信息安全始终是无线传感器网络的首要问题。入侵检测作为一种主动防御的安全技术,可以持续为W
学位
集值向量最优化问题中有效点集的相关性质是一个值得讨论的研究课题。其中连通性发挥了不可替代的衔接作用,它能够使集合的中元素连续移动,这也为集值向量最优化问题中有效点集的可持续性移动提供了可能。本文重点是在局部凸的Hausdorff拓扑向量空间中研究了含参数的目标集值映射是C-弧连通的情况下,含参数集值向量最优化问题的Henig有效点集、强有效点集和全局有真有效点集的连通性。主要内容如下:第一章为绪论
随着国家“东桑西移”发展战略的实行,广西凭借其独特的地貌气候与地理位置上的优势,使桑蚕业成为了广西地区的主要基础产业。但是桑叶采摘的主要方式还是以手工作业为主,效率低下,成本较高,因此越来越需要高效率的机械自动化的桑叶采摘方式,而目前国内对已有桑叶采摘机的仿真研究与优化设计相对较少。因此本文以摇杆式桑叶采摘机作为研究对象,对其进行研究分析,主要的研究内容包括以下几个方面:(1)为了探索分析桑树的生
学位
学位
本研究通过对“清—云”高速公路路域敏感路段的植被与土壤取样试验,研究土壤种子库与地上植被特征,以及两者之间的关系,从而提出公路建设中植物和表土资源的保护对策。研究成果可应用于高速公路路域植被恢复与重建,对保护当地物种和加速路域植物恢复有重要价值,对打造广东省“绿色公路”提供科学依据。主要结果如下:(1)地上植被共统计到45科70属83种植物,物种生活型以灌木和乔木为主,占优势的科是禾本科和茜草科,
自2015年以来开展的环保督查行动清退很多高污染、高排放的落后产业,化工行业不免经历了一轮市场洗牌。严峻的监管形势加快了化工行业的优胜劣汰,也给留存下来的企业带来了诸多难题和挑战,优化供应链刻不容缓,在供应链上下游的共同努力下,压缩自己生产流程的时间,快速响应客户需求,成为企业追求的目标。供货商作为供应链的起点,在企业中具有举足轻重的地位,从源头上进行控制,加强与供应商之间的合作,对供应商行之有效
近年来,大容量数据存储和数据快速读入因其广大的市场及应用价值越来越成为人们研究的热点。周期性排列的磁性颗粒构成的体系,在高密度存储器中有重要的应用。而单畴磁性颗粒自旋的动态翻转特性的研究对磁性存储器的性能有很重要的意义。颗粒磁化强度的稳定性和磁化翻转的快慢直接影响磁存储器的性能。本文中,主要建立了两种磁性颗粒模型:简立方结构的立方磁性颗粒模型和六角密堆球形结构的磁性颗粒模型。在模型的建立中,我们考
铝合金构件在轨道车辆的结构中大量存在,在轨道车辆高速运行过程中铝合金构件受交变应力影响,在其内部容易产生应力腐蚀裂纹,因此,需要对轨道车辆铝合金构件开展无损检测。本研究基于ANSYS有限元仿真软件建立了带阻尼浆铝合金地板的平面远场涡流检测仿真模型,优化了远场涡流传感器设计参数。试验研制了适用于带阻尼浆铝合金构件埋深缺陷检测的平面远场涡流传感器。以带有阻尼浆的铝合金地板埋深缺陷和带涂层的L型梁R角埋