基于WEB挖掘的聚类搜索引擎研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:huangxz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展,人们利用互联网共享各种信息,使得网络信息资源日趋丰富,搜索引擎正是为了解决这一问题而发展起来的,而现在的搜索引擎存在明显的缺陷:一是搜索引擎结果数量庞大,二是搜索结果线性排列,本文在现有搜索引擎各种技术研究的基础上,对Web文档聚类进一步研究,致力于搜索结果的自动分类,从而使得用户更加直观高效地找到所需结果。  数据挖掘(Data Mining,DM)是指从大量不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。发展自统计学的聚类分析作为数据挖掘的一项主要功能和任务,成为数据挖掘中的一个重要的研究领域,至今已提出了大量的理论和方法,取得了丰硕的研究成果。其表现形式为概念(Concepts)、规则(Rules)、模式(Patterns)等形式。数据挖掘的功能包括发现概念类描述、关联规则、分类和预测、聚类、趋势分析、偏差分析和类似性分析。  如何从WEB包含的大量信息中发现固有的模式和关联,成了人们迫切希望解决的问题。将传统的数据挖掘技术与Web结合起来,进行Web挖掘就是一个途径。Web挖掘是传统数据挖掘技术在Web环境下的应用,试图从大量的Web文档集合和用户浏览Web的数据信息中发现未知的,有潜在应用价值的模式。因此,显而易见进行基于Web挖掘的聚类引擎研究有着十分重要的意义。  本论文的研究目的是在系统地回顾了互联网信息检索、数据挖掘、搜索引擎以及聚类技术的应用研究现状基础上,将搜索引擎的搜索结果进行聚类处理,最后以结构化的方式显示给最终用户。  本文的主要研究成果包括:  (1)对互联网信息检索、搜索引擎、数据挖掘及其聚类的应用研究现状进行分析和概述,从而指出基于Web挖掘的聚类搜索引擎研究是一个具有重要意义的研究课题。  (2)本文根据Ming-Cheng Tseng中提出的confidence-lift模式,改进Apriori算法在最大值约束条件下来找到最大频繁项集。  (3)将文本聚类与现代搜索引擎技术结合起来,提出了一种新的搜索引擎体系结构,解决了现在搜索引擎存在的一些缺陷。  (4)在以上面各项研究的基础上,设计了原型系统,从而证明了提出的新的聚类搜索引擎体系结构的可行性。  聚类搜索引擎是一个崭新的领域,其相关的许多技术还在发展,本文的最后对进一步的研究工作进行了展望。
其他文献
近些年来,由于互联网技术的迅猛发展以及通信网络带宽和处理能力的大幅提高,使得网络能够提供形式多样的多媒体业务,同时也使得支持“点对多点”或“多点对多点”的组播通信方式
有向标签图作为重要的数据表示模型,广泛应用于社交网络、生物信息学、语义 web等信息技术相关的研究领域。目前,随着上述领域数据规模的快速增长,如何高效管理较大规模的有向标
近年来,以互联网为传播介质,以数字化多媒体内容为主体的数字媒体产业在全球范围内快速崛起,并逐渐改变了人们娱乐休闲的方式。本文以数字音像内容集成分发平台为依托,构建一
XML(eXtensible Markup Language)已经成为Web上数据表达和数据交换的新标准。XML文档的大量出现,产生了XML数据管理的需求。XML所描述的Web数据所具有的半结构化特性对传统
当前,科技信息领域的现状是:各省级科技情报单位收集了大量区域内的科技信息资源并建立了各自的信息系统。随着我国“科教兴国”战略的推进,对科技资源的信息化建设也提出了
身份认证是计算机和互联网世界里最基本的要素之一,也是整个信息安全体系的基础。生物识别技术应用于身份认证是未来发展的趋势,相对于基于口令和智能卡的技术来说,生物识别
医院信息系统的迅速普及,为医疗行业积累了海量有价值数据。对这些数据的有效利用、分析,挖掘其中隐含的信息、知识及模式,可为疾病患者提供更好的诊疗及保健,为管理者提供更好的
我国社会经济的高速发展离不开日益发达的道路交通运输,发达、快速的道路交通运输已经成为经济发展的必备条件。同时,随着人们的购买能力的增强,私家车的数量大幅上升,密集的道路
随着多媒体技术和网络技术的不断发展,多媒体信息的数量迅猛增长,为了充分利用已有的多媒体资源,研究多媒体检索技术变得越来越重要。音乐检索技术研究的是如何从大量音频信
AVS是我国自主创新战略的一个典型。从2002年开始,以AVS标准工作组的方式,组织了国内外两百多家单位、一千多人的队伍开展联合创新,制定了配套的数字音视频信源编码标准,成为