基于TextRank的抽取式文本摘要生成方法研究

来源 :河南财经政法大学 | 被引量 : 0次 | 上传用户:kookzhu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
是通过技术从文本或者文本集合自动抽取、提炼文本中的要点信息,方便读者从大量数字信息中获取所需内容。目前有多种实现技术,大致可分为抽取式文本摘要和生成式文本摘要。本文研究对象为抽取式文本摘要,现有抽取式文本摘要技术存在的问题是抽取的结果不准确、主题重复等,针对这些问题本文对传统的Text Rank模型做了改进,针对Text Rank算法存在的摘要句主题重复问题,利用MMR算法(最大边界相关算法)进行去冗余处理,引入BERT模型解决一词多义问题,用句向量直接计算句子的相似度取代了传统的词频统计计算相似度的方法。本文的研究内容主要有以下几个方面:1、文本句向量的生成TextRank模型是基于图的形式,在构建图模型时,图中的节点是句向量,传统的Text Rank算法生成句向量是先把句子中的词转换成向量,然后将所有的词向量转换成句向量,本文引入BERT模型直接把文本中的句子转化成向量的形式,借助BERT模型的优势可以根据语境确定语义,解决一词多义问题。在TTNews数据集上实验结果表明,这种改进获得较好的实验结果。2、文本相似度计算传统TextRank算法计算相似度是计算两个句子之间的共现词出现的频率,该方法没有考虑到句子语义层面的信息,抽取的摘要不准确,本文通过BERT模型得到句向量之后,基于句子的向量形式计算它们之间的相似度。理论分析和实验结果表明,余弦相似度方法更胜一筹。3、对主题相同的句子去重复处理传统的TextRank算法得到的摘要结果存在句子主题重复问题,这个问题在长文本数据集上表现的更加明显,因此,本文利用最大边界相关算法对摘要结果进行去冗余处理。
其他文献
为了解决在复杂环境下决策困难的问题,本文借助Vague集描述不确定信息的优势,研究Vague多属性群决策模型。在目前的Vague多属性群决策研究中,权重求解和信息集结是学者们的研究重点。在权重求解的研究中,已有研究关注于专家权重或属性权重,很少有研究考虑Vague评价值的权重,然而在信息集结的过程中是以Vague评价值为单位的,因此考虑Vague评价值的权重也是必要的。通过Vague评价值的权重可
学位
金融作为国家重要的核心竞争力之一,金融安全也是国家安全体系的重要一环。习近平总书记多次指出,防止发生系统性金融风险是金融工作的永恒主题。目前正是我国经济转向高质量发展的关键时期,经济转型升级带来的各种不确定因素势必会对国家金融安全造成冲击。为了有效防范系统性、全国性的金融风险,必须重视具有联动性、传染性的区域金融风险。近年来,河南省经济运行中存在众多金融风险事件,研究区域金融风险在地市层面上的空间
学位
目的:PDCA循环管理在手术室外来器械管理中对降低医院感染发生率的作用。方法:选取本院手术室外来器械200件作为研究对象,根据器械管理当中实施管理方法的差异分组,常规组(n=100):常规管理,实验组(n=100):PDCA循环管理,对比在不同管理模式应用下外来器械管理质量以及清洗灭菌合格率、医院感染发生率。结果:组间数据相比较,通过PDCA循环管理模式的实施,相比于常规组,实验组管理质量得到了显
期刊
决策问题从古至今都是管理领域中的重要问题,发展速度也非常迅速,决策类型由确定性问题到模糊性问题,决策技术由经验决策到科学决策。模糊性问题发展过程中,由于问题的复杂度不断增加,犹豫模糊型决策问题逐步被挖掘研究。犹豫模糊集由犹豫模糊元组成,犹豫模糊元的个数取决于评价指标的个数,犹豫模糊元由若干个评价指标的隶属度组成,这种结构充分展示了决策指标的模糊性和犹豫性。本文对犹豫模糊集,模糊拟阵与子拟阵,模糊聚
学位
随着国家治理体系和治理能力现代化进行的不断推进,生态环境治理成为我国治理领域的重要部分。但当前生态环境治理过程中逐渐暴露一些问题:政府单主体治理难以有效解决环境问题、无法整合多方面资源。因此,全面把握我国生态环境协同治理现状,实现有效协同治理对政府提升执政管理能力有一定的意义。本文立足于生态环境协同治理的研究,结合生态环境协同治理的特点,运用可变模糊集理论中的可变模糊循环迭代模型筛选协同治理体系中
学位
创新是社会发展的重要推动力,以华为等为代表的5G技术推出标志着我国信息技术行业已经走到了国际前列,但是在一些核心领域,例如芯片、光刻机等还受发达国家制约,因此提升信息技术企业创新能力十分重要。企业创新需要资金保障,然而从市场环境来看,融资约束问题仍然是制约着我国上市企业发展的主要障碍,而且不同类型的企业面临的融资约束状况存在差异,在企业进行融资时,国有企业和民营企业待遇也是不一样的;从国家政策角度
学位
在双循环发展背景下,我国提倡以国内经济大循环为主体,该提议将扩大国内需求创造经济增长新动力作为主要实施路径,而零售消费金融正在扩大内需、刺激居民消费方面扮演着至关重要的角色。所以,深入研究零售消费金融的发展对居民消费行为的影响,对于推动居民消费需求长期机理的确定和形成稳定的消费金融市场是十分关键的。本文首先基于理论基础和影响因素对零售消费金融作用于居民消费行为的影响机制以消费水平和消费结构两方面进
学位
党的十九大报告中再次强调了创新是引领发展的第一动力,但纵观全国,中部六省的技术创新产业总体上与东部经济发达省份相比还有不足,呈现出基础薄弱创新乏力等特点。企业创新与风险投资密不可分,科技型企业对于创新的需求最为迫切,风险投资又为了科技企业进行创新提供了资金保障,因此,科技型企业的创新能力与风险投资具有密不可分的关系。本文将风险投资机构根据不同的资金来源分为政府、联合与民营背景。本文在理论分析中,首
学位
在高中语文教学中设置学习任务群能够整合单元教学内容,有助于学生学会自主学习,建构语文核心素养。在设计整本书阅读任务群时,教师应注意根据总目标﹑分目标整体设计学习任务,引导学生围绕心理状态﹑环境气氛等不同角度解读作品。此外,还可以组织学生参与主题沙龙﹑编演话剧等活动,丰富任务形式。这样可以更好地设计任务群,提升整本书阅读教学效率。
期刊
移动互联网技术的快速发展与应用,使得数据获取与收集变得尤为容易。数据收集与分析能够有效提升产品与设备的服务质量,向用户提供个性化体验。然而,不可信第三方对用户数据进行收集与分析时,用户的个人敏感信息有可能被泄露。基于此,差分隐私模型下的数据收集与分析技术得到了研究者广泛关注。差分隐私模型主要包括中心化差分隐私、本地化差分隐私、混洗差分隐私。中心化差分隐私与本地化差分隐私是针对收集者信任度变化而设置
学位