基于CSUAP和TextRank算法的短文本聚类研究

来源 :浙江理工大学 | 被引量 : 0次 | 上传用户:sbisk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的普及与发展,人们在各种网络平台上获取、生产信息。各大网络平台中随之积累了大量的Web短文本数据,这些Web短文本中蕴藏着丰富的信息,如何从中挖掘信息具有重要的研究意义。文本聚类是一种自动化的数据挖掘技术,其将文本集中相似的文本聚成一类,在此基础上从文本类簇中提取信息,可以使人迅速的发现文本集中蕴含的各种话题和领域信息。与传统的长文本聚类不同,短文本具有文本简短、内容碎片化以及增长迅速等特点。本文根据短文本的特点,提出了针对短文本的聚类方法以及类簇信息提取方法。具体研究内容如下:(1)提出了一种CO-TF-IDF特征词权重计算方法。CO-TF-IDF在传统TF-IDF权重计算方法的基础上,增加了基于词共现关系的关联语义权重,强化了特征词之间的关联语义信息,提高了聚类质量。(2)采用潜在语义分析方法进行文本特征降维和冗余信息过滤,同时也克服了向量空间模型无法处理同义和多义现象的缺点。(3)实际短文本聚类场景中存在着大量的噪音文本(没有主题归属的文本),且较难事先确定类簇数。针对这两个问题,本文提出了一种改进的粗糙集聚类算法(CSUAP算法)来进行短文本聚类。CSUAP算法在原算法(CSUA算法)的基础上加入了噪音文本数据的过滤以及上近似集的迭代合并过程。(4)对于聚类后得到的短文本类簇,提出了一种代表文本和关键词标签相结合的类簇信息提取方法。首先基于Text Rank算法的排序结果来提取类簇中的代表文本,然后从代表文本中提取出综合权值最大的关键词作为类簇的标签。词标签可以使人迅速的了解类簇主题信息,在此基础上结合代表文本所提供的语境信息,使得类簇信息的提取结果更易理解。(5)最后,基于本文提出的短文本聚类和类簇信息提取方法,设计并实现了一个可视化的短文本聚类分析系统,该系统可对收集到的短文本数据集进行聚类并提取出各个类簇中的代表文本和词标签。
其他文献
随着科技的进步,当今社会的信息量正在以爆炸的趋势增长,因此需要对这些大量的数据进行挖掘,为社会生活乃至国家发展找出有价值和有意义的相关知识。于是,产生了数据挖掘这一
随着人们对计算机自动化和智能化的渴望,人工智能的发展和研究应运而生。自然语言处理作为人工智能的重要研究方向之一,在对语言处理的高效性和准确性方面有很大的发展和提高
随着集成电路技术的发展,为实现万物互联,网络中需要连接更多实现特定功能的设备。NoC是一种可以实现单颗芯片上超大规模系统集成的新兴通信模式,但NoC内核数量的不断增加,2D
近地层风场的预报是风能资源利用的重要关注点。背景场资料是区域模式的初边值来源,而模式近地层的湍流过程需要边界层参数化方案来描述。因此,两者对近地层风场的预报有着重
有关社区发现的理论研究一贯在社会网络的课题中占有非常的重要地位。而近几年计算机网络技术的发展,使得社会网络的规模由现实生活中人与人之间的关系,逐步扩展到了在线虚拟
大数据研究的兴起,使得数据首次作为一种资源,受到了政府、企业以及学术界等社会实体的高度关注。人们已开始从数据受益,数据中蕴含的重要价值已初见端倪。然而当人们在使用
本文基于新经济地理学理论,采用长江中游城市群城市分行业两位数水平的制造业数据,运用空间统计方法,分析了 2000-2012年长江中游城市群产业聚集的时空特征及变化趋势。基于2
大气边界层是下垫面和自由大气之间动量、热量和水汽等交换的重要桥梁,湍流垂直输送是边界层内的主要过程。研究边界层内的湍流特征尤其是其垂直分布特点是边界层气象研究的
研究背景缺血性心脏病,又名冠状动脉粥样硬化性心脏病,是当今世界死亡人数最多的疾病,严重危害人类健康。当冠脉粥样硬化斑块破裂时,可引起血小板激活,进而形成血栓,导致一系
随着家居用品电商化的发展和垂直导购平台的兴起,需要从技术上提升家居用品垂直电商化导购的用户体验。目前电商行业也面临着信息爆炸的问题,据统计淘宝上的商品种类已经细化