论文部分内容阅读
信息时代为我们带来了大量数据,也提出了“人们被数据淹没,人们却饥饿于知识”的挑战。面对这样的挑战,数据挖掘和知识发现技术应运而生,并得以蓬勃发展,越来越显示出其强大的生命力,成为数据库研究的一个新领域。 数据挖掘,也称作数据库中知识发现(KDD),是从数据中抽取出隐藏的、事先未知的及具有潜在有用性的信息的非平凡过程。它使用机器学习、统计学和可视化技术并以人们容易理解的形式来展现知识。 文本数据挖掘是通过自动提取文本信息在大量文本数据中发现未知的知识的过程,与自然语言密切相关,其关键是把提取的信息组合起来发现未知知识。文本数据挖掘不同于Web搜索,Web搜索是人们事先已知要查找什么,而文本数据挖掘是发现未知知识,事先可能并不存在。文本数据挖掘也不同于常规意义上的数据挖掘,常规数据挖掘是在数据库中发现感兴趣的模式,而文本数据挖掘是从自然语言文本中发现模式。 关联规则是大量数据中各数据项之间的关联或相互联系。关联规则数据挖掘是要在给定的数据集中找出数据项之间的联系。关联规则主要描述数据集一组数据项间关系的密切程度,可以分为布尔型关联规则和量化型关联规则。关联规则的形式为X(?)Y。关联规则包含前提(X)和结果(Y)两部分,还用两个数值来度量规则的确定度。第一个度量值是支持度,是所有包含X和Y的项集占全部项集的比例。第二个度量值是置信度,是指包含X和Y的项集与包含X的项集之比。 最为著名的关联规则发现发法是R.Agrawal提出的Apriori算法。Apriori算法用于发现单维、单层、布尔关联规则。其基本思想是基于这样一个结论:频繁项目集的任一非空子集必然是频繁项集。关联规则的挖掘一般可分成两个步骤:第一步是找出所有的支持度不低于用户设定的支持度最低值的频繁项目集;第二步是从频繁项目集中生成置信度不低于用户设定的置信度最低值的规则。FP-Growth(Frequent-Pattern tree)算法由Han J W等人提出的,是一种不产生候选频繁项目集的方法。加权关联规则算法从用户的角度来解决数据库中各个项目对不同的用户的重要性不同,挖掘出对用户来说确实感兴趣的关联规则。 在本文中,作者提出并设计了一个文本数据挖掘系统原型,给出了系统原型体系结构并实现了该文本数据挖掘系统原型。