基于待与项集的频繁项集挖掘算法的研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:wolantu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关联规则挖掘是数据挖掘的一个重要研究方向,被广泛应用于市场营销、决策分析等领域,其主要目标就是发现数据库中一组对象之间某种有趣关联或相关联系。频繁项集挖掘是关联规则挖掘的关键内容,也是数据挖掘的热点和难点问题。高效的频繁项集挖掘是一个具有重要理论意义和广阔应用前景的研究课题。   近年来,频繁项集的高效算法的研究得到众多学者的关注,研究人员从不同的角度开展研究工作,以提高算法的效率。本文对频繁项集挖掘问题进行了深入的研究和探索,主要研究工作和成果如下:   (1)在对数据挖掘、关联规则挖掘领域传统理论研究的基础上,深入探讨了频繁项集挖掘的经典算法-Apriori算法及其有代表性的Apriori改进算法,并系统分析了无需产生候选项集的FP-growth算法。   (2)针对Apriori算法在挖掘频繁模式时,存在的需要产生大量的候选项集、多次扫描数据库和时空复杂度过高等方面的局限性,本文提出了一种基于待与项集的频繁项集挖掘算法。该算法从两个方面对算法效率进行了改进:①通过对项编码来减少扫描数据库次数;②引入了一个新的概念一待与项集,通过从待与项集中删除项来减少候选项集的数量。实例分析表明,该方法仅需扫描一次数据库,而且具有搜索速度快、节省内存空间等优点。相同条件下的实验结果表明,该算法能有效地提高频繁项集挖掘的效率。   (3)针对基于待与项集的频繁项集挖掘算法在处理大型数据库时存在的瓶颈,提出了基于待与项集的分区挖掘算法的设计思想,并从时间和空间两个方面对其可行性和效率进行了分析。基于待与项集的分区挖掘算法对于解决分布式数据库关联规则挖掘方面具有一定的应用前景。
其他文献
在中文信息处理领域,未登录词(OOV)的识别一直是个难点问题。而未登录词的翻译在自然语言处理的应用中是很重要的,比如在跨语言信息检索(CLIR)、问答系统(QA)中,未登录词翻译
云计算是当前国内外研究的热点问题,它带来了一种新的理念,其关键是依托于由第三方运营商提供的集中计算和存储资源进行实时交互,而不是依赖本地计算机资源。云计算实际是在电子
学位
能源在企业成本中占有相当大的比重。而有些企业能源利用效率低,单位产品能耗高,这就相应地增加了企业的成本,削弱了企业的市场竞争力,因此降低能源消耗是企业降低成本的重要
遥感图像通过远距离成像,提供关于客观场景的信息,是人们认识客观世界的重要手段,在自动目标识别、气象等众多领域有重要意义。由于单源遥感图像提供的信息往往不能达到需求的要求,综合图像信息的图像融合技术成为了研究的热点。目前,该领域的研究集中在融合算法的设计、融合效果的评估等方面,并取得了较多成果,但涉及到面向应用的融合源选择时,学术界缺乏系统的研究及令人信服的理论。本文针对此问题展开讨论。图像质量评价
人脸识别是生物特征识别领域中的一种基于生理特征的识别技术,通过相关算法提取的人脸特征进行身份验证。由于世界上不存在任何两张完全相同的人脸,所以人脸具有唯一性和不容易
集数据采集、处理和通信于一体的无线传感器网络以其低廉的价格、便利的部署方式得到越来越广泛的使用,对传感器网络各个方面的研究也日益成为学术界非常活跃的课题。报头压
随着网络的迅速发展,文本信息的数量也日益增加,文本分类成为处理和解决大量文本数据的关键技术。传统的文本分类,通过预先定义类别或者标记类别,对大量样本数据的训练构建合
对编译器的测试仍以手工设计、开发、执行测试用例方式为主,效率低下且易于出错。建立在文法测试理论基础之上的测试集合生成方法——规则覆盖算法等只考虑了对被测编译器语
由于数据库技术的发展和存储器等硬件技术的成熟,人们在收集信息方面的能力显著提升,通过信息收集积累了大量的数据。在这些海量数据的背后隐含着许多对人类生活和工作有用的、