WEB文本挖掘的聚类分析

被引量 : 0次 | 上传用户：pcy1226

【摘要】

：

数据采集和存储技术的进步导致庞大的数据库日益增多,从这些数据中提取出有价值的信息,成为人们日益关心的问题,而且已经形成了一门学科,成为“数据挖掘”。如果仅涉及到很小

【作者】

：

张兆中

【发表日期】

：

2005年期

【关键词】

：

数据挖掘文本挖掘聚类数据集贝叶斯方法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

数据采集和存储技术的进步导致庞大的数据库日益增多,从这些数据中提取出有价值的信息,成为人们日益关心的问题,而且已经形成了一门学科,成为“数据挖掘”。如果仅涉及到很小的数据集,那么我们就可以仅仅讨论统计学家们所使用的标准数据探测和分析方法了。数据挖掘所分析的经常是庞大的数据集。聚类和分类同是数据挖掘的重要内容。文本是存储和交换信息的最自然的方式,文本挖掘具有非常重要的现实意义。文本挖掘所要处理的数据规模更大,因而使得许多对数据库中数据挖掘很有效的聚类算法,对于文本挖掘变得不可行。规模的增大,要求算法必须能够增量的执行,因为没有可能将数据一次调入内存处理。另外这对算法的效率也提出了苛刻的要求。同时,Web的文本数据是不断增长的,新的信息类型不断出现。算法必须有能力在不完全重新分析已有数据的情况下,增量处理新的数据,更新聚类结果。通过对以Web文本数据为代表的高维数据特点的分析,认识到传统的聚类技术在这里面临许多新的困难。本文尝试以概率理论特别是贝叶斯方法为主要手段研究文本聚类。同时研究过程中吸纳了信息论中的一些思想。在大量的实验基础上,提出了两种基于贝叶斯理论和信息论思想的聚类算法。通过数据测试和不同算法的对比分析,算法显示出了较好的性能。

其他文献

区域金融创新及其对区域经济发展的作用机制研究

本文对于区域金融创新的研究建立在区域金融的基础上,分别从区域金融创新和区域金融要素流动的互动关系、区域金融创新和金融风险的相互影响,以及区域金融创新对于区域经济发

学位

区域金融创新要素流动区域金融风险区域经济发展

黄河山东段水资源可持续开发利用研究

黄河水是山东省的重要客水资源,进入20世纪80年代以来,黄河入境水量越来越少,而且断流次数增加,断流时间延长,给山东经济社会发展和生态环境带来严重危害,开展黄河山东段水资

学位

黄河水资源开发利用可持续预测

房地产项目主题定位策划的研究

1995年以来,房地产策划的研究取得了长足的发展,各种有关房地产策划的案例、论文、书籍和研讨会,相继出版和举行,形成欣欣向荣的大好局面。2001年,《当代建设》2001年增刊号

学位

主题定位房地产策划过程模型触媒信息

基于.NET的长交话单分析系统的设计与实现

随着三层/多层企业信息系统结构的深度发展和下一代分布式计算模型Web 服务的出现,企业应用中关于平台、框架、语言的竞争也愈演愈烈。J2EE平台在过去几年里一直引领着企业应

学位

企业应用系统体系结构.NETC#ADO .NET

为什么资本不从富国流向穷国?

<正> 由于遵循着完全标准的技术假定,最简单的新古典的国际贸易和经济增长模式的均衡预测为人们所熟识且易于解释。假设有两个国家,以同样的规模收益不变的生产函数来生产同

期刊

殖民地

后行作业任务包的分解方法

本文阐述了后行作业各个阶段的工作内容，并围绕后行作业的特点，后行作业的三个完整性目标及后行作业任务包这三个要素，结合任务包的的基本特征，给出了基于精益造船理念后行作业任

期刊

后行作业完整性任务包作业分解

我国宏观经济先行指标体系构建方法的探讨及应用

经济景气研究发源于西方,经历了一百余年的发展演化,其研究思想在不断创新与改进中日臻完善,目前已经成为市场经济国家监测宏观经济运行的一种重要手段。为配合我国市场经济

学位

景气分析先行指数一致指数经济周期滤波

副肿瘤性天疱疮伴发Castleman病三例分析

目的探讨副肿瘤性天疱疮伴发Castleman病的临床特点。方法回顾性分析3例副肿瘤性天疱疮伴发Castleman病的临床特征和治疗方法。结果副肿瘤性天疱疮多由Castleman病诱发,其临

期刊

巨淋巴结增生天疱疮

中药材干燥设备设计及其控制系统仿真

干燥在我国已有较长的应用历史,技术上取得了不少的进展,但中药材的干燥技术还显得比较落后,往往中药材在常规干燥(热风干燥、烘干等)后的质量不高,在国际市场上与其他国家的

学位

中药材微波/真空干燥神经网络模糊控制仿真

酒精饮料中氨基甲酸乙酯的研究进展

氨基甲酸乙酯为一种致癌物，在酒精饮料中含有痕量的氨基甲酸乙酯。简析了氨基甲酸乙酯对人体的危害与限量标准，对现有的氨基甲酸乙酯的控制方法和国内外的检测方法进行了综述，并

期刊

酒精饮料氨基甲酸乙酯检测方法

WEB文本挖掘的聚类分析

其他学术论文