聚类分析及其在文本挖掘中的应用

被引量 : 0次 | 上传用户：JK0803_chenjianchao

【摘要】

：

随着信息技术的发展，以电子形式存在的文本信息已经成为人们主要的信息来源。人们迫切需要能够从Web上快速、有效地发现资源和知识的工具。近年来针对文本数据的文本挖掘已逐

【作者】

：

李健

【发表日期】

：

2005年期

【关键词】

：

文本挖掘聚类分析文本聚类 K-means算法特征向量

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着信息技术的发展，以电子形式存在的文本信息已经成为人们主要的信息来源。人们迫切需要能够从Web上快速、有效地发现资源和知识的工具。近年来针对文本数据的文本挖掘已逐渐成为人们研究的新课题。其中，对于文本聚类的研究已经引起了广泛的重视，并取得了良好的成果。本文首先对数据挖掘中的聚类分析做了深入的理论研究，以数学的形式表示和讨论了聚类分析中样本类型、样本相似度测量、类的定义等基本概念，分析了五种常用的聚类算法，并对算法性能做了分析与比较。本文随后对于聚类分析在文本挖掘中的应用——文本聚类做了研究，讨论了将无结构的文本数据转化为聚类算法可以处理的结构化数据的方法和以特征向量形式表示的文本聚类算法。最后，给出了一个简单的文本聚类模型，并基于K—means文本聚类算法，对模型做了一种设计和实现。

其他文献

矿井（底板）突水灾害的动态机理及综合判测和预报软件开发研究

本文从分析煤层覆岩运动结构入手，结合统计分析结果，研究了在不同覆岩运动结构下及承压水共同作用下煤层底板岩体的采动破坏机制，并用现场测试结果进行了验证。在此基础上，探讨了

学位

煤层底板覆岩运动结构岩体变形断裂裂隙突水机理突水预测

论人民代表大会对政府的监督

人大监督也叫权力监督，是指各级人民代表大会及其常委会为保障宪法、法律的实施，维护人民的根本利益，防止行政、司法机关滥用权力，通过法定的方式和程序，对它产生的国家机关及其工

学位

公共权力政府利益人大监督

装备管理信息系统综合集成问题探析

分析了装备管理信息系统综合集成的基本过程。从功能集成、信息集成、服务集成等方面对装备管理信息系统的综合集成进行了系统分析研究。其中，功能集成主要通过功能设计来实现

期刊

装备信息管理装备管理信息系统系统集成信息管理

副语言问题研究

本文首先从三个方面阐释了副语言与语言的关系：起源与发展——副语言是语言的前身，起源早但是发展缓慢：渗透与合作——副语言与语言的界限，两者相互渗透、相互合作，交际才能得以有

学位

副语言语言

SNG公司测量管理体系优化设计

本文在深入探讨国内外相关测量设备质量控制理论和计量管理理论研究现状和应用现状的基础上，结合SNG电子元件有限公司测量设备管理现状及产品生产过程特点，对其测量管理体系进

学位

测量设备计量确认测量管理体系确认间隔

苏州地区外资企业职工体育现状调查与分析——以苏州工业园区为例

外资企业职工体育是目前我国职工体育工作中的一个特殊的群体和现象。中国人进入外资企业后，成为外资企业职工体育的直接参与者和受益者。对苏州工业园区外资职工体育的现状进

学位

苏州地区外资企业职工体育

补充支链氨基酸对大鼠精神疲劳的缓解作用

[目的] 研究补充支链氨基酸(branched-chain amino acids，BCAA)对睡眠剥夺所致精神疲劳大鼠的主动行为表现、血浆尘化指标及有关神经递质和脑干色氨酸羟化酶(Tryptophan hydr

学位

BCAA精神疲劳行为5-HTTPH mRNART-PCR大鼠

从“类”到“社会”

一切人学理论都是从界定人的本质开始的。在马克思关于人的学说中,人的本质理论始终是他考虑的首要问题之一,而“类”与“社会”则是这个理论中两个最重要的概念和中心范畴。

学位

人的本质类本质社会本质劳动现实的个人

长庆石油勘探局油田化工企业重组战略研究

随着我国石油工业的发展,油田化学品工业正在迅速发展成为一门新兴精细化工行业,它横跨石油、化工两大部门,涉及到油田地质、流体力学、胶体化学、高分子化学、界面活性剂化

学位

长庆油田化工重组战略

仿真支撑平台及环境仿真技术研究

作为武器装备现代化建设不可缺少的主要支撑技术，仿真技术正成为提高军队战斗力，实现科技强军的重要手段。视景仿真技术是现代仿真技术的一个重要分支。视景仿真(Visual Simula

学位

视景仿真HLAOpenGL场景图图形库

聚类分析及其在文本挖掘中的应用

其他学术论文