论文部分内容阅读
随着互联网的飞速发展,人们利用互联网共享各种信息,使得网络信息资源日趋丰富,搜索引擎正是为了解决这一问题而发展起来的,而现在的搜索引擎存在明显的缺陷:一是搜索引擎结果数量庞大,二是搜索结果线性排列,本文在现有搜索引擎各种技术研究的基础上,对Web文档聚类进一步研究,致力于搜索结果的自动分类,从而使得用户更加直观高效地找到所需结果。 数据挖掘(Data Mining,DM)是指从大量不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。发展自统计学的聚类分析作为数据挖掘的一项主要功能和任务,成为数据挖掘中的一个重要的研究领域,至今已提出了大量的理论和方法,取得了丰硕的研究成果。其表现形式为概念(Concepts)、规则(Rules)、模式(Patterns)等形式。数据挖掘的功能包括发现概念类描述、关联规则、分类和预测、聚类、趋势分析、偏差分析和类似性分析。 如何从WEB包含的大量信息中发现固有的模式和关联,成了人们迫切希望解决的问题。将传统的数据挖掘技术与Web结合起来,进行Web挖掘就是一个途径。Web挖掘是传统数据挖掘技术在Web环境下的应用,试图从大量的Web文档集合和用户浏览Web的数据信息中发现未知的,有潜在应用价值的模式。因此,显而易见进行基于Web挖掘的聚类引擎研究有着十分重要的意义。 本论文的研究目的是在系统地回顾了互联网信息检索、数据挖掘、搜索引擎以及聚类技术的应用研究现状基础上,将搜索引擎的搜索结果进行聚类处理,最后以结构化的方式显示给最终用户。 本文的主要研究成果包括: (1)对互联网信息检索、搜索引擎、数据挖掘及其聚类的应用研究现状进行分析和概述,从而指出基于Web挖掘的聚类搜索引擎研究是一个具有重要意义的研究课题。 (2)本文根据Ming-Cheng Tseng中提出的confidence-lift模式,改进Apriori算法在最大值约束条件下来找到最大频繁项集。 (3)将文本聚类与现代搜索引擎技术结合起来,提出了一种新的搜索引擎体系结构,解决了现在搜索引擎存在的一些缺陷。 (4)在以上面各项研究的基础上,设计了原型系统,从而证明了提出的新的聚类搜索引擎体系结构的可行性。 聚类搜索引擎是一个崭新的领域,其相关的许多技术还在发展,本文的最后对进一步的研究工作进行了展望。