文本分析及其在能源新闻摘要中的应用与实现

来源 :重庆大学 | 被引量 : 0次 | 上传用户:cai2001m
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的飞速发展,用户获取信息的途径变得多样化,但浩如烟海的信息也给用户带来信息过载的困扰。如何快速有效地获取关键信息成为用户的一个迫切需求。文本自动摘要技术正是解决这一问题的重要方法,因此越来越受到人们的关注。对于能源领域研究人员,自动摘要技术通过压缩新闻内容,帮助能源领域的研究人员及时掌握行业动态,从而节约时间成本。本文以能源新闻文本为研究对象,面向单文档新闻研究抽取式摘要算法。首先梳理国内外学者在自动摘要领域的研究现状。接着介绍文本摘要技术相关理论知识包括文本预处理、文本向量化表示、词向量模型。最后研究传统Text Rank、Lex Rank算法、基于BM25的改进Text Rank算法。针对传统算法忽略文本语义特征等问题,使用Word2Vec+Text Rank算法提取摘要,并考虑能源新闻的句子位置、标题两个特征对句子权重计算进行调整。实验过程中通过爬虫获取3263条能源新闻数据作为语料库,经过预处理后在Word2vec模型中完成词向量训练。之后使用这4种不同算法分别从50篇能源新闻中抽取3个句子作为摘要。用ROUGE评价方法对实验结果进行评测,结果显示当参数a=0.1,b=0.9,?=0.08时,融入句子特征的Word2Vec+Text Rank改进算法表现最优,任何一项ROUGE指标都高于其他3种算法,相较于Text Rank算法,ROUGE-1、ROUGE-2、ROUGE-L指标分别提高了11.4%、25%、21.3%。Lex Rank算法在实验能源新闻文本数据上表现最差,提取出的摘要与参考摘要重叠率低。使用BM25计算句子相似度抽取摘要结果比Lex Rank算法有所改善,ROUGE-1平均得分由0.546提高到0.590,提升了8%。
其他文献
医学数据挖掘是现今数据挖掘技术的重要研究方向之一,多年来始终是统计学与医学的研究热点。在机器学习高速发展的今天,对于医学数据的处理更加值得关注。而针对于医学领域来说,心血管疾病是目前致死率最高的一类疾病,所以对心血管疾病数据的研究变得非常重要。由于医学数据的高维性,为了能够更快地得到准确预测结果,一般来说需要对数据进行降维处理,在统计学中,常用的降维方法是主成分分析。但是对于医学数据来说,主成分分
学位
互联网改变了人们生产生活的方式,政府设置了微信、微博、市长信箱、阳光热线等网络问政平台,目标是激励更多的老百姓通过网络参政问政,从而汇聚民智,解决民众日常所需,提升民众对政府的满意度,树立政府全心全意地为人民服务的良好形象。网络问政平台关于社情民意的留言文本数据量大而杂,仅靠人工经验进行分类处理,很难及时地到达政府相关的职能部门,尤其是留言中的热点话题的处理时间滞后太久,将会极大地损害党和政府在人
学位
近年,我国B2C电子商务行业发展迅速,越来越多的电商平台诞生,虽然活跃买家数也在逐年递增,但是对于商家来说压力亦是只增不减的。而在这个商家和消费者交易的过程中,产生的商品销售数据也是可以缓解商家压力的。通过对数据进行挖掘和分析,研究基于网络消费的各商品之间的内部结构既能反映消费者的消费倾向及其原因,也能指导商家做出对商品价格或品牌等的改进去迎合消费者需求。据此,本文以2019年10月24日-202
学位
甲状腺功能减退(hypothyroidism)是临床上常见的内分泌疾病,是由于机体甲状腺素合成和分泌不足或组织作用减弱而导致的全身代谢减低综合征。甲状腺激素具有重要的生理功能,包括影响肾脏的发育、血流动力学、肾小球滤过率(glomerular filtration rate,GFR)等。甲状腺功能减退症与原发性肾病综合征的发病密切相关。甲状腺功能减退会增加原发性肾病综合征的风险。同时,甲状腺功能减
期刊
信用风险指借款人、证券发行人或交易双方因种种原因,不愿或无力履行合同条件造成违约,致使银行、投资者或交易对方遭受损失的可能性。构造科学合理的客户信用风险预测模型,对违约客户进行精准判别,不仅能规避违约客户对交易方造成的损失,还能基于信用风险评估对客户提供更优质的产品及服务。许多学者的研究成果表明,利用机器学习算法对客户信用风险进行评估的效果是显著的,但机器学习中方法众多,并不是每种方法都能取得理想
学位
通过阐述通辽市蒙古族民众中华文化认同的现实状况,分析通辽市蒙古族民众中华文化认同存在差异的原因,进一步提出通辽市要深入开展民族团结进步宣传教育,发挥民族特色优势凝聚文化精神力量,持续提升民族事务治理法治化水平,不断提升人民群众的获得感、幸福感和安全感。
期刊
2020年11月,我国发布了2021年到2035年的新能源汽车产业发展规划,该规划明确我国将在15年后成为以纯电动汽车为主的世界汽车强国,并且到那时,公共交通领域将全部实现电动化。在这样的政策驱动下,新能源汽车行业的发展前景一片光明,对于企业和投资者来说,新能源汽车行业上市公司的股票将具有很大的吸引力,因此他们对于该行业股票价格预测的关注度也将越来越高。股票的交易数据属于时间序列数据,一般来说股票
学位
科技飞速发展,各个行业都开始步入大数据时代,医疗行业因包含有关人类健康的大量数据,渐渐迎来了智能医疗时代。在众多疾病中,肺炎作为常见的一种危害到民众健康和生命安全的呼吸系统疾病,特别是自新型冠状肺炎疫情爆发以来,饱受关注。肺炎分类诊断效率亟待提高。利用机器学习和统计方法进行肺炎类型分类的探究,能够更好更快地建立肺炎类型诊断机制,节省医生临床决策的时间,帮助患者进行针对性治疗,既能加快患者康复速度,
学位
地震是世界上重大的突发性自然灾害之一,毁灭性强且危害性大,因此,对地震概率预测方面的研究一直以来都备受国内外学者们的关注。在此背景下,本文对川滇地区1970年1月1日至2020年12月31日5.0级以上的地震目录进行了建模和分析。首先对该区域的地震复发时间间隔特征进行了统计分析,结合常用于地震概率预测的连续型分布中的指数分布、韦布尔分布和对数正态分布分别构建地震概率预测模型,通过K-S检验结果中的
学位
房屋与生活息息相关,其功能分为居住和投资两个方面。房屋的首要功能是居住,一套交通便利、环境优美、安全性高的宜居房屋在市场上往往受到消费者的青睐;而除了居住功能以外,房屋也是投资保值重要手段,作为多年来回报率较高且稳定、风险较小的投资项目来说,购置房产是投资者抵抗人民币贬值的重要途径之一。因此,对房屋的价值的研究很有价值和意义。文章通过爬虫获取了1026条安居客2021年2月成都市二手房成交记录,同
学位