【摘 要】
:
【目的】利用主题模型得到文本主题信息,将主题信息融入TextRank模型对其进行改进,提升文本关键词自动抽取的准确率和召回率。【方法】利用LDA对文档集进行主题建模,得到候选
【基金项目】
:
国家自然科学基金项目“基于演化本体的网络舆情自适应跟踪方法研究”(项目编号:71373123);中央高校基本科研业务费专项:前瞻性发展策略研究资助项目“基于大数据技术的跨境电商政府管理范式研究”(项目编号:NW2018004);国家社会科学基金项目“大数据环境下人文社会科学学术创新力自动测度研究”(项目编号:15BTQ058)的研究成果之一
论文部分内容阅读
【目的】利用主题模型得到文本主题信息,将主题信息融入TextRank模型对其进行改进,提升文本关键词自动抽取的准确率和召回率。【方法】利用LDA对文档集进行主题建模,得到候选关键词的主题词分布和文档主题分布;结合候选关键词主题分布特征计算节点权重,加权文档–主题概率分布和主题–词概率分布特征作为节点的随机跳转概率;构建新的转移矩阵进行词图迭代,得到改进后的TextRank模型。【结果】采集南方周末网站1 559篇新闻文章进行实验。结果表明,本文模型的关键词抽取效果明显优于原始TextRank和TF-IDF模型;当抽取关键词个数为3时,本模型准确率比原始TextRank模型的准确率提升4.7%,比TF-IDF提升6.5%。【局限】融合算法的计算复杂度增加。【结论】融合主题信息的TextRank算法能够使关键词自动抽取效果更加显著。
其他文献
近年来,武汉市户政基础工作管理积极响应“四项建设”统一部署,全面深化改革,坚持“四个一流”、“三个导向”,以“八化”为方向,强力推进派出所规范化建设、实有人口管理、
“一师一优课,一课一名师”(简称“一师一课”)活动旨在以应用促革新为导向,以资源共享为纽带,以教师课堂应用为中心,创新教育教学模式和方法,推动信息技术与教育教学深度融
根据李家湾矿区锰矿层赋存特点,开创性地试验了俯伪斜柔性掩护支架长壁采矿工艺,现场顶板安全得到了有效控制,实现了不留矿柱连续开采,资源回收率较传统工艺提升1倍以上,生产
研究目的:为加快改善唐山市区健身俱乐部运营现状,提高唐山市人民的身体健康水平和改进唐山市人民的健身方法,促进健身市场的大众化、市场化、商品化,使健身项目成为商品,以
随着监管层对我国银行业改革和金融业对外开放的进一步深化,国内金融环境和银行系统正进一步密切地与世界市场对接,而国外银行因为操作性风险而破产的案例也有可能在我国商业银行上演,因此提高我国商业银行操作风险的识别与防控能力迫在眉睫。近些年来银行间经历了大量的“票据风波”案件,起因都为操作风险所致,许多国有银行也深陷其中,金额都高达上亿。票据案例的发生无疑是人为因素,内外勾结作案。为了更一步防控此类操作风
一、时间是稀缺资源,每个人都应倍加珍惜传统观点认为,时间就是金钱。当代观点认为,时间比金钱还重要。一寸光阴一寸金,寸金难买寸光阴。鲁迅先生讲过:“时间,每天得到的都是二十四
森林是重要的生态资源,在改善环境,提高生活品质,保证资源供给等方面发挥着重要的作用。从当前的发展形势来看,森林资源保护会面临着越来越大的压力,也会面对一些以往所没有
为研究微孔结构阳离子改性涤纶纤维针织物的服用性能,纺制不同纱支、不同混纺比的微孔结构改性涤纶/棉混纺纱线,并编织成一定规格的针织物,测试各类织物的服用性能,进行对比分析。
啤酒花(Humunus lupulus L.)是桑科葎草属多年生草质蔓生藤本植物。啤酒花主要用于啤酒酿造工业,赋予啤酒苦味和香味,同时亦作为一种药用植物被广泛使用。本研究主要着眼于新
数字媒体技术是当今信息技术领域发展迅速、活跃的技术之一,是新一代电子技术发展和竞争的焦点,使用其对视频技术进行优化,在提高视频的视觉效果方面具有重要意义。针对传统