【摘 要】
:
随着信息技术的不断进步以及数据的爆炸式增长,人们越来越深刻的认识到数据的价值。如何从大量的数据中发现有用的信息尤为重要,关联规则是数据挖掘中的重要分支,可用于发现数据库中不同项之间的关联关系,有助于企业做出商业决策。本文主要围绕着关联规则展开研究,首先介绍了数据挖掘和关联规则的相关概念,然后对Apriori和FP-growth两种经典算法进行分析,对比了两种算法在数据挖掘过程中发现频繁模式的优缺点
论文部分内容阅读
随着信息技术的不断进步以及数据的爆炸式增长,人们越来越深刻的认识到数据的价值。如何从大量的数据中发现有用的信息尤为重要,关联规则是数据挖掘中的重要分支,可用于发现数据库中不同项之间的关联关系,有助于企业做出商业决策。本文主要围绕着关联规则展开研究,首先介绍了数据挖掘和关联规则的相关概念,然后对Apriori和FP-growth两种经典算法进行分析,对比了两种算法在数据挖掘过程中发现频繁模式的优缺点。其次,提出了一种新的基于FP-growth算法的频繁模式挖掘算法MGFP-growth(Matrix and Group FP-growth)算法。该算法相对FP-growth算法的不足进行了两方面改进。一方面,FP-growth算法在构造FP-tree过程中需要扫描两次数据库,而且要多次遍历结果集L,降低了时间效率,因此本文提出了用二维矩阵按列存储每条事务,对每条事务进行分割和分组,建立parenttrace关系,可以快速建立新型的树形结构MGFP-tree(Matrix and Group FP-tree)。另一方面,FP-growth算法在挖掘频繁模式中,需要递归生成大量的条件模式基和FP-tree,导致内存开销大,而MGFP-tree是根据分组后的项构造树的节点,减小了树的分支;MGFP-tree挖掘分为两部分,一部分是非空父节点的频繁模式挖掘,另一部分是将非空右孩子节点中的非重复项添加至父节点的nodesplit中进行频繁模式的挖掘。最后,运用实验证明了MGFP-growth算法的效率优于FP-growth算法。将以上研究成果应用到现实数据中,通过MGFP-Growth算法挖掘拉勾网上Java开发相关岗位的隐藏信息,从多维角度分析企业招聘信息中的内在联系,为相关求职者提供参考和决策。
其他文献
在大规模制造产业中,设备的可靠稳定运行是企业生存的基础。制定合理有效的维护策略成为了保障企业持续生存运营的重要举措。现有的维护策略研究大多以设备的功能可靠度为中
邻氨基苯酚是许多天然化合物、科学材料、医药分子等的合成中间体,尤其在医药领域的应用备受关注。传统的制备方法反应步骤繁琐、选择性差、产率低。随着金属有机化学的发展,
构筑高效光催化体系对于治理环境污染、缓解能源危机具有重要意义。在各种半导体材料中,BiVO_4因其丰富的原料来源、合适的禁带宽度(2.4 eV)、较正的价带位(2.43 V vs.NHE)等特点在光催化降解有机物及光解水产氧领域受到广泛关注。然而纯BiVO_4中,光生载流子极易发生复合,且光生电子因导带位较正(0.03 V vs.NHE)而表现出较差的还原能力,这些都限制了其在光催化领域的实际应用
螺环氧化吲哚结构广泛存在于很多天然产物和生物活性物质中,是许多天然产物,合成化合物和临床药物的核心组成部分。尤其是,手性螺吡咯烷氧化吲哚具有的抗癌、抗菌、抗病毒和
封闭式复合材料桅杆因其卓越的隐身性能在舰船上的应用越来越多。在舰船的航行中,封闭式桅杆会受到风载、桅杆自身结构重量、仪器设备重量以及船舶横摇(纵摇)的作用。为了确保桅杆正常工作,需要保证桅杆具有足够的强度和稳定性。然而,由于复合材料的各向异性、力学性质在空间上的不连续等因素,复合材料结构的失效模式较钢结构更加复杂。这些问题给封闭式复合材料桅杆的结构设计带来了挑战。本文以封闭式夹芯复合材料桅杆为研究
工业生产中往往会产生大量热量,为保证产品和生产设备的安全运行,需采用冷却介质带走生产中产的部分热量,冷却塔就是冷却循环系统中常用的最重要构件之一。随着经济的发展,机
产能过剩问题已成为阻碍我国经济增长和产业结构优化的重要因素。产能过剩问题与我国制造业附加值低、核心技术匮乏有关,根本原因在于我国企业创新能力不足。本文聚焦于长江经济带企业,分析技术创新对企业产能利用率的影响。本文首先梳理了技术创新对企业产能利用率影响的相关文献;然后基于1998-2007年中国工业企业数据库数据,测度并分析了长江经济带企业产能利用率的现状;其次建立了技术创新影响企业产能利用率的理论
2μm激光处于“人眼安全”波段,因对大气有强穿透力以及水分子对其强烈的吸收等特性使它在测距、相干激光雷达、大气传感以及医疗手术等领域得到广泛的应用,同时大功率2μm激
由于MEMS加工工艺技术的局限性以及力的尺度效应,MEMS双稳态加速度开关中的结构参数和材料性能存在着不确定性,这些不确定性因素直接影响了双稳态加速度开关性能的稳健性,甚至可能导致开关功能的失效,因此在MEMS双稳态加速度开关的设计阶段进行稳健性优化具有重要的工程意义。由于MEMS双稳态加速度开关在设计阶段无法制作大量的测试样品,使得随机优化方法和模糊优化方法受到了限制。针对上述难题,本文使用区间
语义组合计算是将词语语义组合成句子语义的过程,是获取句子语义表示的主要技术之一,广泛应用于情感分析、机器翻译、句子匹配等自然语言处理任务。语义组合性原理表明句子语义是由词汇语义根据句法结构组合得来的,因此语义组合计算与词义和句法紧密关联。目前,大多数研究主要关注对词汇语义表示的改进,少数研究开始关注对句法结构信息的利用。但这些结构化方法仍存在如下问题:(1)目前汉语依存分析在长距离依存关系上的分析