在文章聚类中话题热度排序的研究与实现

来源 :东华大学 | 被引量 : 1次 | 上传用户:xaly001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在当代互联网快速发展的背景下,人们的日常阅读方式逐渐从报纸和书籍转向网上阅读,各行各业都开始在网络上发布文章、新闻或通知等重要信息。每天在网络上会有成千上万的文章供人们阅读,类型也多种多样,网络已成为人们表达思想、交流感情、了解时事的重要平台。因此,如何从海量文本中发现潜在的热点话题,并按照话题的火热程度有序呈现给公众就具有了重要的意义。本文研究了自然语言处理中常用的聚类技术,并对k-means聚类算法的缺陷进行了改进。使用改进的k-means算法对文本进行聚类,从聚类结果中提取出关键词构建话题。最后制定了话题的热度排序策略,根据实际情况灵活设置参数,并对构建的话题进行热度排序。论文主要工作如下:1.通过对传统k-means算法优缺点的研究和分析,提出一种改进的k-means聚类算法。首先结合层次聚类算法的思想,改进了k-means算法的聚类流程,优化了初始质心的选择方法,提高了初始质心位置的合理性,及时清除了空簇。其次使用高斯核函数作为文本相似度计算方法,在高维度空间对数据进行划分。改进的算法大大提高了聚类的准确性,改善了传统k-means算法的部分缺陷。2.预处理文本,删除文本噪声,使用Jieba中文分词工具准确分割文本,并过滤文本中的停用词。使用Doc2Vec文本表示模型,尽可能地利用原文的语序信息将文本转变为向量,这在一定程度上提高了文本向量模型的准确性。使用改进后的k-means聚类算法对文本进行聚类,并展示文本聚类结果。3.对话题进行定义,使用TF-IDF算法从文本聚类结果中提取出若干关键词进行分析,筛选出代表性词语构建话题。从话题的文本总量、文本的最近发布时间、话题持续时间、最新的文本增长量、转发评论总数等方面考虑,灵活分配热度权重,对话题进行热度评估并排序。根据本文的研究,使用改进的k-means算法对文本进行聚类,可以更高效、准确地从聚类结果中总结出话题,然后使用基于话题特征和用户参与度制定的热度排序策略对得出的话题进行排序,有效地突出了受到广泛关注的热门话题。
其他文献
随着我国畜牧业相关政策的发布实施,猪场生产正向着工业化、专业化和集约化的方向发展,猪场现代信息化管理提上了议事日程。目前,我国养猪行业属小规模企业所占份额最多,生产
本报讯(记者钱培坚)记者从上海市政府新闻办3月22日举行的新闻发布会上了解到,该市多层次、多形式的终身职业技能培训体系已经基本形成。截至目前,上海已建立89家高技能人才培养
报纸
酷儿理论及相关文化是近年来西方学界的热门研究话题,酷儿电影作为酷儿理论的最直接的实践产物,在20世纪90年代,西方关于酷儿电影的探索进入了全新的阶段,不断突破主流文化禁忌,以自信不羁的酷儿姿态表达异质多元的主张。内地的电影直恪守着传统异性恋的秩序,酷儿电影一直游走在各类电影的叙事之外。2018年的台湾金马奖受到颇多关注的影片《谁先爱上他的》获得最佳剧情长片,酷儿题材的电影登堂入室,进入主流文化的视
本文主要研究中国商业房地产抵押贷款支持证券的现实状况,即目前在我国商业地产领域商业房地产抵押贷款支持证券(CMBS)的使用情况和具体的操作方式.本文主要使用内容分析法和
我国证券市场已经具备建立退出机制的基本条件,但因为多方面原因而无法实施.必须以市场化原则构建完备的退出机制.
本文综述了国内外学者近年来对骨碎补化学成分和药理作用的研究,为进一步深入系统的研究骨碎补活性成分和作用机制,以及中药现代化开发提供资料。
共产党始终不渝的奋斗目标,是实现共产主义。从中国共产党成立近百年,尤其是新中国成立70年的经济建设来看,我们之所以能够取得举世瞩目的成就,关键就在于我们党始终高度重视
简介了空间辐射环境中的银河宇宙线和太阳质子事件及其对航天员的辐射危害;根据辐射危害防护需求,比较了磁场偏转、电场抵消和等离子体偏转3种防护方法的原理和优缺点;对载人
塔式起重机是工程机械领域中重要的运输工具,特别在高层房屋建设中具有重要的作用。由于塔式起重机的结构和使用特点致使其发生事故的频率较高且会造成严重的经济财产损失。研发一套监控塔式起重机工况安全的系统具有重要的价值和意义。在上述背景下,同时结合企业的监控需求,本文研发了一套基于ARM和ZIGBEE无线网络的塔式起重机智能监控系统,它能实时监控塔式起重机的工况信息数据并在人机交互系统上实时显示,同时监控
近年来,我国石油套管钢的产量已超过全球产量的一半,并保持着稳步增长的趋势,即使在全球金融危机时期也不例外,与世界套管钢产量的回落形成鲜明对比。由于经济危机的影响,我