基于全覆盖粒计算的文本特征选择和聚类研究

来源 :太原理工大学 | 被引量 : 2次 | 上传用户:xieyinglan2007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在信息爆炸的当今,文本信息呈现指数级上涨的趋势,人类徜徉在信息的海洋里。网络用户面对规模如此庞大的数据时,如何从这些数据中快速、准确地获取自己感兴趣的相关内容,是人类正面临的巨大挑战。通过人工对文本信息进行分类整理不仅成本高,而且缺乏时效性,因此采用机器学习方法进行文本挖掘成为国内外研究的热点。文本聚类是文本挖掘的关键技术之一,在自动整理文档集、搜索引擎等方面都得到广泛应用。文本聚类是一种无监督的机器学习方法,文本特征选择是文本聚类的预处理步骤之一,本文针对现有文本特征选择精度不高的问题和基于划分的文本聚类随机选取初始聚类中心导致聚类精度低的缺点分别进行改进,提出一种改进的特征选择算法和一种改进的文本聚类算法。粒计算是机器学习和文本挖掘领域处理关键问题的一种新方式,在保留数据中蕴含的价值和信息的前提下,能大幅度的降低数据的维度,是处理大规模文本数据的一种有效工具。全覆盖粒计算是粒计算的一种特例,包含全覆盖理论、信息粒化和粒度计算,为文本特征选择和文本聚类提供了一种新的思路。本文的主要研究工作有:1、提出一种基于全覆盖粒计算的文本特征选择方法,通过将特征词的位置、词频、词性因素扩展至TFIDF(Term Frequency Inverse Document Frequency)算法中,即TFIDF_SP(Term Frequency InverseDocument Frequency_Speech and Place)算法,结合bLDA(background Latent Dirichlet Allocation)主题模型计算特征词的语义信息,同时将二者线性加权,得到符合文本内容表达的特征词集,最后对特征词集进行信息粒化,进行全覆盖粒计算的知识约简,在保留文本信息不变的前提下,得到更精简的特征词集。实验表明,与其它特征选择算法相比,本文的特征选择算法得到的特征词集更符合文本表达的实际意义。2、本文提出一种基于全覆盖粒计算的K-medoids文本聚类算法,通过Singles-Pass算法对文本集进行粗聚类,利用全覆盖粒计算相关理论从粗聚类结果中选出初始聚类中心候选集,基于密度和最大最小距离理论从初始聚类中心候选集中选出初始聚类中心。实验表明,与其它改进K-medoids算法相比,本文选出的初始聚类中心更符合实际的聚类中心,因此聚类质量较好,同时结合改进的特征选择算法和改进的聚类算法,与改进的特征选择算法和传统聚类算法相结合作对比,结果表明本文的特征选择算法和聚类算法的可行性和有效性。
其他文献
互联网的广泛应用已经充分显示出其对人们生产方式和生活方式的深刻影响,伴随着互联网的迅速发展,以现代信息网络技术为载体的数字经济在全球强势崛起,信息与商务活动日益数字化,较之传统模式,社会政治和经济系统焕然一新。互联网经济环境和经济活动在中国的迅速发展,不仅改变了传统的商业模式,也给税收治理体系带来了新的挑战和机遇。从税收征管角度看,数字经济下的纳税(缴费)人呈现出无限、无疆、无形的“三无”特性,与
我国暖通空调控制技术还存在着能耗高等问题,主要研究了暖通空调优化控制技术的发展现状和问题、暖通空调优化控制技术的要点以及未来发展趋势,以期暖通空调优化控制技术得到
近年来,随着中国经济转型的不断加快,以及国家政策对于中国企业跨国并购发达国家先进技术的支持,越来越多的中国企业参与到跨国并购当中。我国已有一些跨国并购成功的案例。比如:美的集团用292亿人民币跨国并购库卡公司;万达集团以持有全部股份的方式跨国并购美国传奇影业公司;海尔斥55.8亿美元的资金跨国并购通用家电;中国平安以16亿美元跨国并购汽车之家;腾讯以86亿美元跨国并购Supercell,这些企业在
“职业打假”是伴随我国《消法》的发展而出现的一种社会现象,“职业打假”处于法律的灰色地带,无论在理论还是在司法实践中均对其争议颇多。当前司法实践中“职业打假”案件的数量不断增多,与此同时,对“职业打假”行为的认定一直困扰着司法实践,同案异判的现象也时有发生。针对这一现象,虽然学界和实务界都对已展开研究,但相关研究更多的是针对“职业打假”行为的某个方面——特别是知假买假行为进行研究,较少对“职业打假
近年来,随着科技的快速发展,图像与视频数据都在以爆炸式的速度增长,为了快速处理大量的图像与视频数据,从中快速提取出有用的信息,研究人员越来越重视显著性提取技术的研究。显著性检测的目的是为了检测出一幅图像或者一段视频中的显著目标所在的区域,根据人类视觉机制显示,该显著区域就是人眼最关心的区域,通常越显著的区域包含的信息越有价值。显著度检测广泛用于图像分割、目标识别、图像压缩、图像检索等领域中。针对图
竹江岛在福建省霞浦县南部,东吾洋北侧,小岛呈不规则长方形,东西长0.58公里,南北宽0.18公里,面积约为0.11平方公里,聚居有张、郑、陈三姓近3500人。小岛距沙江镇1.3公里,低潮位的时候,海
通过建立基于医疗大数据的医院绩效管理系统,完善了绩效管理分配与考核机制,促进了医院精细化管理,提高了医疗技术水平和质量,推动了医院运营管理向前发展。
人与自然关系的协调发展是当前可持续发展基本内涵的关键所在,而对于自然及其属性的认识也引导我们在关注自然的物质属性的同时,进一步认识其作为事物自然本性的属性。