基于关联规则的文本数据挖掘研究

来源 :西南石油大学 | 被引量 : 0次 | 上传用户:cychenying2007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息时代为我们带来了大量数据,也提出了“人们被数据淹没,人们却饥饿于知识”的挑战。面对这样的挑战,数据挖掘和知识发现技术应运而生,并得以蓬勃发展,越来越显示出其强大的生命力,成为数据库研究的一个新领域。 数据挖掘,也称作数据库中知识发现(KDD),是从数据中抽取出隐藏的、事先未知的及具有潜在有用性的信息的非平凡过程。它使用机器学习、统计学和可视化技术并以人们容易理解的形式来展现知识。 文本数据挖掘是通过自动提取文本信息在大量文本数据中发现未知的知识的过程,与自然语言密切相关,其关键是把提取的信息组合起来发现未知知识。文本数据挖掘不同于Web搜索,Web搜索是人们事先已知要查找什么,而文本数据挖掘是发现未知知识,事先可能并不存在。文本数据挖掘也不同于常规意义上的数据挖掘,常规数据挖掘是在数据库中发现感兴趣的模式,而文本数据挖掘是从自然语言文本中发现模式。 关联规则是大量数据中各数据项之间的关联或相互联系。关联规则数据挖掘是要在给定的数据集中找出数据项之间的联系。关联规则主要描述数据集一组数据项间关系的密切程度,可以分为布尔型关联规则和量化型关联规则。关联规则的形式为X(?)Y。关联规则包含前提(X)和结果(Y)两部分,还用两个数值来度量规则的确定度。第一个度量值是支持度,是所有包含X和Y的项集占全部项集的比例。第二个度量值是置信度,是指包含X和Y的项集与包含X的项集之比。 最为著名的关联规则发现发法是R.Agrawal提出的Apriori算法。Apriori算法用于发现单维、单层、布尔关联规则。其基本思想是基于这样一个结论:频繁项目集的任一非空子集必然是频繁项集。关联规则的挖掘一般可分成两个步骤:第一步是找出所有的支持度不低于用户设定的支持度最低值的频繁项目集;第二步是从频繁项目集中生成置信度不低于用户设定的置信度最低值的规则。FP-Growth(Frequent-Pattern tree)算法由Han J W等人提出的,是一种不产生候选频繁项目集的方法。加权关联规则算法从用户的角度来解决数据库中各个项目对不同的用户的重要性不同,挖掘出对用户来说确实感兴趣的关联规则。 在本文中,作者提出并设计了一个文本数据挖掘系统原型,给出了系统原型体系结构并实现了该文本数据挖掘系统原型。
其他文献
固态盘是一种较新型的外存储设备,具有体积小、功耗低、可靠性高、抗恶劣环境能力强等优点,非常适合军事系统的应用。然而,目前已有的固态盘产品性能不高,也缺乏此方面的理论分析
为使得Web Services这一新兴技术能够更加可靠、高效地应用于商务环境中,需要根据商务环境实际需求对Web Services基本技术框架进行扩展,设计具有针对性的处理机制,从而进一步完
随着互联网的普及和发展,网站的数量和规模越来越大,用户在站内寻找自己想要的信息变得越来越麻烦,如何实现一个智能的个性化推荐网站成为当前的一个研究热点。 针对目前Web
随着计算机性能的不断提高和计算机技术的不断发展,真实场景的三维模型越来越多地出现在各种计算机软件中,成为计算机软件表现现实世界的一种重要手段。本文研究了基于图像的
近几年来,卫星网络通信技术受到了越来越多的重视,世界各国都加紧进行卫星网络技术的研究和开发,对卫星的轨道设计、星座设计、通信信道技术、路由交换技术、卫星网络管理等各项
随着因特网的迅猛发展,如何更合理、有效地利用有限的网络资源,逐渐成为网络运营者和Internet接入用户所共同关心的问题。网络计费管理工作在整个网络运营中起到重要的杠杆调节
网络技术的发展使得电信网,互联网,广播电视网三网融合已成为必然趋势。在驻地网范围内实现三网融合具有多种技术方案。以太网组网方式具有成本低廉、技术成熟、适合密集环境等
本文系统地研究了敏捷(Agile)软件方法中的极限编程(XP)方法,讲解了XP的理论知识以及它的十二种实践方法,并且对十二种实践方法在实际系统中进行了研究与应用,都给出了详细、系
颜色恒常性关系到生活的各个方面,人眼视觉系统因为具有颜色恒常性而能感知物体的颜色和识别物体。不幸的是,电子成像设备尚不具备人眼这种特殊感知能力,因此越来越多的科研工作
Multi-Protocol Label Switching(MPLS)是未来网络的重要技术,它吸收了ATM和IP的优点,将ATM的面向连接和IP的选路结合在一起。在提供IP业务时,能够保证QoS和安全性,同时也增强了