基于K-core的图分解TextRank关键词提取技术的研究与应用

来源 :南昌大学 | 被引量 : 1次 | 上传用户:chanck5800
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
根据第48次《中国互联网络发展状况统计报告》,仅2021年上半年,全国网上零售额已达到61133亿元,同比增长了23.2%。在这组数字的背后,不仅是电商行业的繁荣发展,电商相关领域的数据信息量也在爆发式的增长,而电商网站中的用户评论数据就是其中之一。为了能够帮助拥有大量评论信息的电商卖家节省时间发现商品评论中的关键词,以提升自家商品在同行中的竞争力,形成正向反馈,本文以电商评论数据为研究对象,使用构建词图的方法,再结合图网络中节点的属性,配合传统的关键词提取算法,以此来开展研究实验。其主要的研究内容如下:提出基于K-Core的Text Rank关键词提取算法。围绕传统Text Rank算法中每个节点初始权值都为1且在提取关键词的过程中过度依赖字词的出现频率这两个不足之处,在本文算法中使用共现关系构建词图,使用K-Core算法进行剪枝操作分解出词图中的核心和非核心子图,以此来得到重要的节点属性特征。之后,根据选取和定义的6个特征,得到每个节点对应特征的评分,最后根据G1赋权法得到每个特征所占的权重,以此来综合计算每个节点的初始权值。这样一来,既考虑到了节点在图中的属性特征,也使每个节点得到了不同的初始权值,平衡了传统Text Rank算法中边权值(频率)的影响。使用本文算法在自采数据集上做了多组实验,包括在改变参数情况下的自身对照实验以及对比传统的Text Rank算法和TF-IDF算法的实验,结果表明当窗口大小设置为4,提取的关键词数量设置为22时,本文算法的效果要好于传统的Text Rank算法和TF-IDF算法,达到了较好的效果。同时,严格按照软件开发流程设计和实现了基于本文算法的关键词提取系统,方便电商卖家使用。开发过程中主要使用了前后端分离的思想,前端使用Vue框架,后端使用Django框架,前后端通信则使用RESTful风格的接口,在数据的采集功能中也集成了Scrapy爬虫框架,最后则对整个系统进行了测试。该系统可以由用户选择电商评论数据上传方式,并可以对文本数据进行分布式保存和关键词提取、显示,可以有效的提高电商卖家的阅读效率,体现出了本文算法的应用价值。
其他文献
交警通过数据平台进行非现场执法符合建设智慧政府的号召和“互联网+监管”的应用需求,公安机关应积极推行。但是,其面临法律制度缺失和公正性不足等困境,亟待破解。为此,应尽快完善相关法律制度,规范交警非现场执法行为,建设交警执法办案审查中心,提升执法效率和执法公信力。
期刊
测量血压是日常体检或筛查中重要的检查内容之一,通常对某上臂的血压进行测量,得到读数后作为人体血压的测量结果具有随机性。实际上人体存在双臂血压差异,部分人群的臂间血压差异(IDA)较大,现行的国际血压测量指南建议测量双臂血压,一般是利用血压计先检查一侧胳膊,再测量另一侧胳膊,由于时间限制基本上不这样做。同时在测量的过程中存在不规范操作导致的人为误差,是影响诊室血压测量准确性的重要因素之一。基于以上所
学位
目前,国内很多社会服务企业(通信、供电、燃气、供水等),其收费方式都属于后付费类型。对于这些企业,如何减少欠费、降低成本、提高效益,同时还要差异处理、慎重催缴以保证客户感知、避免用户流失,是急需解决的重要问题。为此,就需要提前预测潜在的欠费客户,予以分类处理。然而,现有的欠费预测模型存在分类性能差、稳定性低且泛化能力有待改进等不足。本文主要工作就是针对上述不足,应用电信客户欠费数据,研究构建了基于
学位
规范执法是公安工作的生命线,通过非现场执法装备合法合规收集、固定道路交通违法行为是公安交管部门规范执法的重要内容之一。近些年,在科技强警等政策支撑下,各地广泛开展交通技术监控设备建设,助力事故预防、秩序管控、违法查处等工作。本文对公安交管非现场执法装备的技术发展需求和技术发展趋势进行研究,从执法装备的角度,对进一步提升公安交管非现场执法的规范化有参考价值。
期刊
随着信息技术的迅速发展,人们获取数据变得越来越容易。由于数据本身存在粗糙、模糊和不确定性的问题,使得要想在结构复杂、动态变化的海量数据中寻找有用的知识信息变得更加困难。而聚类集成是近年来数据挖掘领域发现未标记数据集中隐藏信息的流行方法之一。它借鉴集成学习的思想,首先通过多种不同类型的单一聚类算法或者改变同一聚类算法的初始参数生成基聚类集合,然后使用融合函数获得比单一聚类算法更鲁棒更有效的结果。研究
学位
通过分析海事非现场执法中电子监控证据应用现状,指出了其在设备性能、应用推广、程序规范等方面的局限性。借鉴道路交通“电子眼”司法实践,预测了海事行政处罚中电子监控证据涉及主体适格、证明力、无主观过错免罚方面面临的诉讼风险,并从设备、制度、程序等方面为今后电子监控证据在海事非现场执法中规范化应用提出建议。
期刊
随着人民群众对城市综合管理服务的要求日益提高,如何贯彻好“城市管理应该像绣花一样精细”的理念、做好以“绣花功夫”破解城管难题这项工作成为城市综合治理的重点课题。研究探索实现城市管理要素、城市管理过程、城市管理决策等全方位智慧化的城市管理新模式,将AI技术引入城市综合管理非现场执法环节,充分利用前端监管设备、通过大数据、云计算、图像识别等技术及时发现并处置各类涉城市管理的违法问题,探索建立了“前端及
期刊
随着视频数据爆发式增长,视频描述任务越来越被研究者们关注。视频描述需要将输入视频数据转换为描述该视频内容的自然语言描述输出,在视频摘要、助盲等领域有重要应用价值。如何让计算机像人类一样理解视频的内容并且能够准确无误的用语言表达出来,是一个尚未得到完美解决的难题。本文针对现有视频描述模型中存在的缺乏上下文信息、描述不准确等问题,以基于编码器-解码器框架的视频描述模型为基础,在高层语义与特征融合、图卷
学位
协同过滤算法是目前推荐算法研究中应用较为广泛的算法之一。但随着数据量的不断增加,协同过滤算法也面临诸多考验。本文针对时间因素对项目评分的影响,以及项目-评分矩阵的稀疏性问题。研究提出了融合时间衰减函数和干扰理论的协同过滤算法以及基于主成分分析和隐含狄利克雷分布的协同过滤算法,最后设计开发了基于上述改进算法的电影推荐系统。主要研究内容和成果如下:1.提出了一种融合时间衰减函数和干扰理论的协同过滤算法
学位
随着社会的发展,新时代的家长对婴幼儿服务有很高的要求,如何让婴幼儿健康成长成为了一个社会话题。本文深入研究基于管道的任务型多轮对话系统,对其进行建模并应用到婴幼儿服务领域,最后成功开发了婴幼儿服务平台。此平台的开发是为了解决家长在养育婴幼儿过程中所遇到的一些问题。任务型多轮对话系统旨在根据特定的服务需求,在与用户多轮交互中获取有效信息来完成指定任务。对话系统按照对话轮次可以分为单轮对话和多轮对话,
学位