聚类分析及其在文本挖掘中的应用

被引量 : 0次 | 上传用户:JK0803_chenjianchao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,以电子形式存在的文本信息已经成为人们主要的信息来源。人们迫切需要能够从Web上快速、有效地发现资源和知识的工具。近年来针对文本数据的文本挖掘已逐渐成为人们研究的新课题。其中,对于文本聚类的研究已经引起了广泛的重视,并取得了良好的成果。 本文首先对数据挖掘中的聚类分析做了深入的理论研究,以数学的形式表示和讨论了聚类分析中样本类型、样本相似度测量、类的定义等基本概念,分析了五种常用的聚类算法,并对算法性能做了分析与比较。 本文随后对于聚类分析在文本挖掘中的应用——文本聚类做了研究,讨论了将无结构的文本数据转化为聚类算法可以处理的结构化数据的方法和以特征向量形式表示的文本聚类算法。 最后,给出了一个简单的文本聚类模型,并基于K—means文本聚类算法,对模型做了一种设计和实现。
其他文献
本文从分析煤层覆岩运动结构入手,结合统计分析结果,研究了在不同覆岩运动结构下及承压水共同作用下煤层底板岩体的采动破坏机制,并用现场测试结果进行了验证。在此基础上,探讨了
人大监督也叫权力监督,是指各级人民代表大会及其常委会为保障宪法、法律的实施,维护人民的根本利益,防止行政、司法机关滥用权力,通过法定的方式和程序,对它产生的国家机关及其工
分析了装备管理信息系统综合集成的基本过程。从功能集成、信息集成、服务集成等方面对装备管理信息系统的综合集成进行了系统分析研究。其中,功能集成主要通过功能设计来实现
本文首先从三个方面阐释了副语言与语言的关系:起源与发展——副语言是语言的前身,起源早但是发展缓慢:渗透与合作——副语言与语言的界限,两者相互渗透、相互合作,交际才能得以有
本文在深入探讨国内外相关测量设备质量控制理论和计量管理理论研究现状和应用现状的基础上,结合SNG电子元件有限公司测量设备管理现状及产品生产过程特点,对其测量管理体系进
外资企业职工体育是目前我国职工体育工作中的一个特殊的群体和现象。中国人进入外资企业后,成为外资企业职工体育的直接参与者和受益者。对苏州工业园区外资职工体育的现状进
[目的] 研究补充支链氨基酸(branched-chain amino acids,BCAA)对睡眠剥夺所致精神疲劳大鼠的主动行为表现、血浆尘化指标及有关神经递质和脑干色氨酸羟化酶(Tryptophan hydr
一切人学理论都是从界定人的本质开始的。在马克思关于人的学说中,人的本质理论始终是他考虑的首要问题之一,而“类”与“社会”则是这个理论中两个最重要的概念和中心范畴。
随着我国石油工业的发展,油田化学品工业正在迅速发展成为一门新兴精细化工行业,它横跨石油、化工两大部门,涉及到油田地质、流体力学、胶体化学、高分子化学、界面活性剂化
作为武器装备现代化建设不可缺少的主要支撑技术,仿真技术正成为提高军队战斗力,实现科技强军的重要手段。视景仿真技术是现代仿真技术的一个重要分支。视景仿真(Visual Simula