论文部分内容阅读
近年来,随着科学技术的飞速发展,经济和社会都取得了极大的进步,与此同时,在各个领域产生了大量的数据,激增的数据背后隐藏着许多重要的信息。人们不再满足于数据库的查询功能,希望能够对其进行更高层次的分析,以便能从数据中提取信息或者知识为决策服务。目前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识的手段,导致“数据爆炸但知识贫乏”的现象。同样,传统的统计技术也面临着极大的挑战,这就急需有新的方法来处理这些海量数据。数据挖掘就是为顺应这种需要发展起来的数据处理技术。尽管数据挖掘是近年来出现的新技术,但是它已用于企业决策支持,市场策略制定等,并将成为决策支持系统(Decision Support System,DSS)的重要组成部分。 目前因特网是一个巨大、全球性的信息服务中心,且分布广泛,它涉及新闻、广告、消费信息、金融管理、教育、政府、电子商务和许多其它信息服务。Web 包含了丰富和动态的超链接信息,以及 Web 页面的访问和使用信息,这为数据挖掘提供了丰富的资源。Web 数据挖掘是传统数据挖掘技术在 Web 环境下的应用,试图从大量的 Web 文档集合和用户浏览 Web 的数据信息中发现蕴涵的、未知的、有潜在应用价值的、非平凡的模式。应用 Web 数据挖掘可以改善人们获取信息的速度和准确度。 本文对数据挖掘技术进行了概述,在详细介绍 Web 挖掘技术的基础上着重分析和研究了 Web 内容挖掘 (Web Content Mining)、Web 结构挖掘 (Web Structure Mining)、Web 使用记录挖掘 (Web Usage Mining) 技术。并且设计了一个基于 Web 数据挖掘的应用系统。