基于TextRank和Word2Vec的短文本自动摘要算法研究

来源 :武汉理工大学 | 被引量 : 5次 | 上传用户:kekexil123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社交网站和购物网站的兴起,海量短文本数据迅速产生。如何快速地从大量短文本中获取有用信息,是一个亟待研究的问题。而作为自然语言处理中的研究热点,自动文本摘要技术正是解决此类问题的有效方法。通过自动摘要技术,可以帮助用户快速获取大量短文本的主要信息。而快速地、准确地提取出短文本摘要,还依赖于对自动文本摘要算法的研究。因此,本论文重点研究了基于图的TextRank自动文本摘要算法,并针对其不足之处,结合短文本的特点进行算法改进。  本文以基于事件的新浪微博短文本为研究对象,针对TextRank算法忽视事件主题,边权重相似度计算算法不尽理想,以及抽取多条摘要时存在明显信息冗余三个问题,并结合短文本特点,对TextRank自动文本摘要算法进行改进,并通过实验验证了上述改进算法的有效性。本文工作主要包含以下四个方面:  1)作为文本自动摘要任务的基础,本文对短文本建模和相似度计算进行了着重研究。为兼顾短文本的统计特征和语义特征,本文提出一种结合文本表示模型TF-ICF和Word2Vec的加权文本向量化建模方法。进而,在相似度算法选择中,通过理论分析和实验,选取了适合短文本的余弦相似度计算算法。通过实验,验证了本文所提建模方法的有效性。  2)本文对TextRank算法原理进行了深入研究,针对TextRank边权重相似度计算算法不尽理想,没有充分利用短文本统计特征以及语义特征的不足,本文提出利用基于合并加权Word2Vec和TF-ICF的文本向量化模型的余弦相似度计算方法,对TextRank的边权关系进行重构。通过实验,验证了本文所提重构方法的可行性和有效性。  3)本文针对TextRank算法忽视文本主题的不足,提出利用主题句与短文本之间相似度值来调节短文本权重的方法,并继续引入文本长度的因素对主题句与短文本之间相似度值进行调整,最后利用调整值对短文本权重进行调节。通过实验,验证了上述所提方法的有效性。  4)本文针对TextRank算法在抽取多条摘要时,摘要句之间容易出现信息冗余的问题,引入冗余度控制算法MMR对经过权值调整后的短文本进行冗余度控制。实验表明,该方法能有效制防止包含过多相似信息的短文本同时出现在最终摘要结果里面。  本文创新点主要在于以下两点。其一,提出了一种结合TF-ICF模型和Word2Vec模型的短文本特征提取算法,并基于此,提出一种利用余弦相似度算法重构TextRank边权关系的方法;其二,本文提出了分别引入主题因素调节因子,文本长度因素调节因子,以及利用MMR算法,对TextRank自动摘要算法最终短文本权重进行调节的方法,有效改善TextRank自动摘要算法忽视主题,最终权值受文本长度影响较大,以及输出结果有明显冗余的三个问题。
其他文献
随着经济的快速增长,能源消耗越来越多,能源供应十分紧张,寻找新的可再生能源成为人们迫不及待解决的问题。太阳能是一个洁净的、无污染的可再生能源,而且太阳能取之不尽,用
阐述了市盈率指标的内涵和特点,正确认识市盈率的适用性。结合我国股票市场的特殊性,具体阐述了市盈率在我国的特殊性思考。 Expounds the connotation and characteristics
本研究以武汉地区分离到的日本乙脑病毒HW株(Japanese Encephalitis Virus,JEV/HW)为材料,对JEV/HW全基因组进行了分段克隆、测序、拼接,最后获得了包含10个基因的全长基因组
近几十年来,光纤腔衰荡光谱技术逐渐的发展起来,它是具有高灵敏度特性的一种吸收光谱技术。它很好地将光纤传感技术与腔衰荡光谱(CavityRing-DownSpectroscopy, CRDS)技术综合起
摘要:课堂是实施素质教育的主要途径,课堂教学是学校组织教育活动的基本形式,是教学工作者传授知识,培养创新创造、抽象思维、自主学习、逻辑推理、语言表达等生存能力,全面提高高中学生素质的主要途径。新课改教育理念要求在高中数学教学中把得出结果的全部思维过程展现出来,并在这一过程中提高高中学生参与课堂的意识,使学生不但能够学到知识,而且,培养高中学生的空间想象能力、抽象思维能力、逻辑推理能力、创新创造能力
生物质快速热裂解技术被认为是最有前途的生物质液化技术之一。然而,由于生物质热裂解制取生物油的过程并未达到热力学平衡,制取的生物油存在一系列理化特性上的缺点。比如,生物
磁微执行器具有许多静电微执行器无法比拟的优点:磁微执行器可以提供比静电力更大的力或力矩;磁微执行器的工作电压可以与IC兼容;可以在充满灰尘和导电溶液的环境中使用;除了
近十年来,随着半导体工艺和应用需求的不断发展,传统微处理器结构面临着巨大挑战。甚块原子性(Hyperblock-Atomic)体系结构以甚块而不是单条指令作为基本操作单元,在指令级并
本文通过对荣华二采区10
期刊
随着科学技术的快速发展,激光陀螺在军事、航空航天以及工业领域中得到了相当广泛的应用,表现出了巨大的市场潜力和良好的使用前景。但是由于激光陀螺误差种类多,且经常存在相互