WEB文本挖掘的聚类分析

被引量 : 0次 | 上传用户:pcy1226
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据采集和存储技术的进步导致庞大的数据库日益增多,从这些数据中提取出有价值的信息,成为人们日益关心的问题,而且已经形成了一门学科,成为“数据挖掘”。如果仅涉及到很小的数据集,那么我们就可以仅仅讨论统计学家们所使用的标准数据探测和分析方法了。数据挖掘所分析的经常是庞大的数据集。聚类和分类同是数据挖掘的重要内容。 文本是存储和交换信息的最自然的方式,文本挖掘具有非常重要的现实意义。文本挖掘所要处理的数据规模更大,因而使得许多对数据库中数据挖掘很有效的聚类算法,对于文本挖掘变得不可行。规模的增大,要求算法必须能够增量的执行,因为没有可能将数据一次调入内存处理。另外这对算法的效率也提出了苛刻的要求。同时,Web的文本数据是不断增长的,新的信息类型不断出现。算法必须有能力在不完全重新分析已有数据的情况下,增量处理新的数据,更新聚类结果。 通过对以Web文本数据为代表的高维数据特点的分析,认识到传统的聚类技术在这里面临许多新的困难。本文尝试以概率理论特别是贝叶斯方法为主要手段研究文本聚类。同时研究过程中吸纳了信息论中的一些思想。在大量的实验基础上,提出了两种基于贝叶斯理论和信息论思想的聚类算法。通过数据测试和不同算法的对比分析,算法显示出了较好的性能。
其他文献
本文对于区域金融创新的研究建立在区域金融的基础上,分别从区域金融创新和区域金融要素流动的互动关系、区域金融创新和金融风险的相互影响,以及区域金融创新对于区域经济发
黄河水是山东省的重要客水资源,进入20世纪80年代以来,黄河入境水量越来越少,而且断流次数增加,断流时间延长,给山东经济社会发展和生态环境带来严重危害,开展黄河山东段水资
1995年以来,房地产策划的研究取得了长足的发展,各种有关房地产策划的案例、论文、书籍和研讨会,相继出版和举行,形成欣欣向荣的大好局面。2001年,《当代建设》2001年增刊号
随着三层/多层企业信息系统结构的深度发展和下一代分布式计算模型Web 服务的出现,企业应用中关于平台、框架、语言的竞争也愈演愈烈。J2EE平台在过去几年里一直引领着企业应
<正> 由于遵循着完全标准的技术假定,最简单的新古典的国际贸易和经济增长模式的均衡预测为人们所熟识且易于解释。假设有两个国家,以同样的规模收益不变的生产函数来生产同
期刊
本文阐述了后行作业各个阶段的工作内容,并围绕后行作业的特点,后行作业的三个完整性目标及后行作业任务包这三个要素,结合任务包的的基本特征,给出了基于精益造船理念后行作业任
经济景气研究发源于西方,经历了一百余年的发展演化,其研究思想在不断创新与改进中日臻完善,目前已经成为市场经济国家监测宏观经济运行的一种重要手段。为配合我国市场经济
目的探讨副肿瘤性天疱疮伴发Castleman病的临床特点。方法回顾性分析3例副肿瘤性天疱疮伴发Castleman病的临床特征和治疗方法。结果副肿瘤性天疱疮多由Castleman病诱发,其临
干燥在我国已有较长的应用历史,技术上取得了不少的进展,但中药材的干燥技术还显得比较落后,往往中药材在常规干燥(热风干燥、烘干等)后的质量不高,在国际市场上与其他国家的
氨基甲酸乙酯为一种致癌物,在酒精饮料中含有痕量的氨基甲酸乙酯。简析了氨基甲酸乙酯对人体的危害与限量标准,对现有的氨基甲酸乙酯的控制方法和国内外的检测方法进行了综述,并