基于TextRank和Word2Vec的短文本自动摘要算法研究

来源 :武汉理工大学 | 被引量 : 5次 | 上传用户：kekexil123

【摘要】

：

随着社交网站和购物网站的兴起，海量短文本数据迅速产生。如何快速地从大量短文本中获取有用信息，是一个亟待研究的问题。而作为自然语言处理中的研究热点，自动文本摘要技术正是

【作者】

：

陈达

【机构】

：

武汉理工大学

【出处】

：

武汉理工大学

【发表日期】

：

2018年01期

【关键词】

：

短文本自动摘要特征提取相似度计算

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着社交网站和购物网站的兴起，海量短文本数据迅速产生。如何快速地从大量短文本中获取有用信息，是一个亟待研究的问题。而作为自然语言处理中的研究热点，自动文本摘要技术正是解决此类问题的有效方法。通过自动摘要技术，可以帮助用户快速获取大量短文本的主要信息。而快速地、准确地提取出短文本摘要，还依赖于对自动文本摘要算法的研究。因此，本论文重点研究了基于图的TextRank自动文本摘要算法，并针对其不足之处，结合短文本的特点进行算法改进。　　本文以基于事件的新浪微博短文本为研究对象，针对TextRank算法忽视事件主题，边权重相似度计算算法不尽理想，以及抽取多条摘要时存在明显信息冗余三个问题，并结合短文本特点，对TextRank自动文本摘要算法进行改进，并通过实验验证了上述改进算法的有效性。本文工作主要包含以下四个方面：　　1）作为文本自动摘要任务的基础，本文对短文本建模和相似度计算进行了着重研究。为兼顾短文本的统计特征和语义特征，本文提出一种结合文本表示模型TF-ICF和Word2Vec的加权文本向量化建模方法。进而，在相似度算法选择中，通过理论分析和实验，选取了适合短文本的余弦相似度计算算法。通过实验，验证了本文所提建模方法的有效性。　　2）本文对TextRank算法原理进行了深入研究，针对TextRank边权重相似度计算算法不尽理想，没有充分利用短文本统计特征以及语义特征的不足，本文提出利用基于合并加权Word2Vec和TF-ICF的文本向量化模型的余弦相似度计算方法，对TextRank的边权关系进行重构。通过实验，验证了本文所提重构方法的可行性和有效性。　　3）本文针对TextRank算法忽视文本主题的不足，提出利用主题句与短文本之间相似度值来调节短文本权重的方法，并继续引入文本长度的因素对主题句与短文本之间相似度值进行调整，最后利用调整值对短文本权重进行调节。通过实验，验证了上述所提方法的有效性。　　4）本文针对TextRank算法在抽取多条摘要时，摘要句之间容易出现信息冗余的问题，引入冗余度控制算法MMR对经过权值调整后的短文本进行冗余度控制。实验表明，该方法能有效制防止包含过多相似信息的短文本同时出现在最终摘要结果里面。　　本文创新点主要在于以下两点。其一，提出了一种结合TF-ICF模型和Word2Vec模型的短文本特征提取算法，并基于此，提出一种利用余弦相似度算法重构TextRank边权关系的方法；其二，本文提出了分别引入主题因素调节因子，文本长度因素调节因子，以及利用MMR算法，对TextRank自动摘要算法最终短文本权重进行调节的方法，有效改善TextRank自动摘要算法忽视主题，最终权值受文本长度影响较大，以及输出结果有明显冗余的三个问题。

其他文献

基于太阳能电池增效的硅酸盐波长转换荧光材料

随着经济的快速增长,能源消耗越来越多,能源供应十分紧张,寻找新的可再生能源成为人们迫不及待解决的问题。太阳能是一个洁净的、无污染的可再生能源,而且太阳能取之不尽,用

学位

太阳能电池增效机理荧光材料硅酸盐波长转换

Japanese Encephalitis Virus HW株全基因组分析及DNA疫苗的构建

本研究以武汉地区分离到的日本乙脑病毒HW株(Japanese Encephalitis Virus,JEV/HW)为材料,对JEV/HW全基因组进行了分段克隆、测序、拼接,最后获得了包含10个基因的全长基因组

学位

日本乙脑病毒HW株全基因组序列分析遗传分析RT-PCR原核表达亚单位疫苗基因疫苗

基于光纤环形腔衰荡的强度调制传感技术研究

近几十年来，光纤腔衰荡光谱技术逐渐的发展起来，它是具有高灵敏度特性的一种吸收光谱技术。它很好地将光纤传感技术与腔衰荡光谱（CavityRing-DownSpectroscopy, CRDS）技术综合起

学位

光纤环形腔衰荡传感单元衰荡时间时分复用多通道位移

促进高中学生积极参与数学课堂的有效措施

摘要：课堂是实施素质教育的主要途径，课堂教学是学校组织教育活动的基本形式，是教学工作者传授知识，培养创新创造、抽象思维、自主学习、逻辑推理、语言表达等生存能力，全面提高高中学生素质的主要途径。新课改教育理念要求在高中数学教学中把得出结果的全部思维过程展现出来，并在这一过程中提高高中学生参与课堂的意识，使学生不但能够学到知识，而且，培养高中学生的空间想象能力、抽象思维能力、逻辑推理能力、创新创造能力

期刊

高中数学课堂参与意识有效措施

考虑漏磁效应的扭转式磁微执行器Pull-in参数研究

磁微执行器具有许多静电微执行器无法比拟的优点:磁微执行器可以提供比静电力更大的力或力矩;磁微执行器的工作电压可以与IC兼容;可以在充满灰尘和导电溶液的环境中使用;除了

学位

微电子机械系统漏磁效应扭转式磁微执行器静态Pull-in参数有限元法

小学数学优质课堂教学策略探析

本文通过对荣华二采区10

期刊

环形激光陀螺零偏特性的研究

随着科学技术的快速发展，激光陀螺在军事、航空航天以及工业领域中得到了相当广泛的应用，表现出了巨大的市场潜力和良好的使用前景。但是由于激光陀螺误差种类多，且经常存在相互

学位

激光陀螺零偏背向散射椭圆偏振度

基于TextRank和Word2Vec的短文本自动摘要算法研究

其他学术论文