【摘 要】
:
针对经典Apriori算法在迭代过程中频繁扫描数据库,且动态数据更新后需要重新处理数据的不足,提出一种基于二进制编码的增量更新改进CBEF-Apriori算法.该算法的核心思想是将添加增量后的项集、事务转换成二进制编码,从而将计算项集支持度转化为项集与事务数据库的二进制编码位运算过程.改进算法筛选原数据库生成的频繁项集与增量数据库新生成的候选项集,有效减少了候选项集的规模,提高算法效率的同时更符合现实需要.实验结果表明,相比于经典Apriori算法和CBE-Apriori算法,改进算法在挖掘出正确频繁项集
【机 构】
:
湖南师范大学 信息科学与工程学院,湖南 长沙 410006
论文部分内容阅读
针对经典Apriori算法在迭代过程中频繁扫描数据库,且动态数据更新后需要重新处理数据的不足,提出一种基于二进制编码的增量更新改进CBEF-Apriori算法.该算法的核心思想是将添加增量后的项集、事务转换成二进制编码,从而将计算项集支持度转化为项集与事务数据库的二进制编码位运算过程.改进算法筛选原数据库生成的频繁项集与增量数据库新生成的候选项集,有效减少了候选项集的规模,提高算法效率的同时更符合现实需要.实验结果表明,相比于经典Apriori算法和CBE-Apriori算法,改进算法在挖掘出正确频繁项集的数量不降低的情况下,明显提升了计算效率,在小数据规模下相比经典Apriori算法最高提升3.6倍,相比CBE-Apriori算法最高提升1.4倍.在较大数据规模下相比经典Apriori算法最高提升10.41倍,相比CBE-Apriori算法最高提升11.53倍.
其他文献
已知国内房屋售价具有一定的不完整的规律性,其会因季节变换、人群流动、国家相关政策等一系列因素而呈现一定的规律.与此同时,该规律性并没有确定的单一因子可以直接影响,故其售价与全部因素之间的关系也是非线性的.针对这一问题,利用神经网络输入量的非线性、冗杂性和可不完整性,对一段时期内的房屋售价进行预测是一种合理的预测方法.基于BP神经网络传输阈值的不确定性,利用时间序列方法对因子数据进行平行预测,再利用遗传算法和BP神经网络对所得结果进行二次优化,以达到接近实际的精准预测的目的.经过使用某房地产企业的历史销售数
复杂网络中的谣言溯源问题一直是学者们的研究重点,随着互联网技术和社交网络的发展,如何快速准确地确定网络中的谣言源以削减其不良影响显得尤为重要.考虑到谣言源是网络中最早感染的节点,即拥有最大的节点年龄,通过对节点的未受感染邻居所表现出的免责量进行研究,综合免责量与节点年龄之间的关系,提出基于有责量和免责量的谣言溯源算法,同时为了减少计算成本,选取高介数中心性节点作为可疑集.结合现实网络中谣言发展的真实情形,将算法推广至网络中双源情况,基于优化的谱分析方法将感染网络划分为两个社区,将复杂双源问题转化为单源问题
近几年来,人工智能的热度一直居高不下,其中作为人机交互的一种重要方法—人脸表情识别已经成为计算机视觉研究的热点.从传统的机器学习算法到现在的深度学习,识别效率也在不断地提高,为了进一步提高人脸表情识别率,在传统的卷积神经网络的基础上,提出了一种基于改进的ResNet卷积神经网络的表情识别方法.该方法基于ResNet网络的基本结构,采用的中间卷积部分是前后各一个卷积核为1*1的卷积层,中间是卷积核大小为3*3的卷积层,同时将下采样移到后面的3*3卷积层里面去做,减少信息的流失,并用PReLU替代ReLU激活
移动边缘云计算是5G技术的核心之一,也是当下非常热门的通信技术.但当前移动用户数量迅猛增长,传统资源分配方式已不能满足用户需求,因此根据用户的规模及其任务优先级的实时变化,如何合理制定资源分配策略来满足用户对计算单元、存储空间、软件等资源的需求是当下十分热门的研究方向.该文提出了一种基于多目标优先级粒子群算法的边缘云资源调度算法(MPPSO),合理布局多个边缘基站,形成边缘云.在多用户多任务并发时,综合用户数据传输速率、任务能耗、任务优先级和边缘基站性能等多方面因素,设计了两个适应度函数和一种粒子编解码方
The deformation behavior of equal channel angular pressing (ECAP) was discussed by using plasticity method. The node mapping method is employed to realize the analysis of multi-pass ECAP by using three-dimensional FEM methods for pure aluminum. The single
文本分类特别是多类别文本分类问题是非常重要的经典问题,在舆情监测、新闻推荐、在线评论情感分析等领域有着广泛的应用.目前,可用于多类别文本分类的算法很多,但每个算法都有其特定的假设和优缺点.为了帮助使用者或研究者更好地选择和改进分类方法,设计了多类别文本分类方法比较方案,综合考虑了文本特征表示方法和分类算法两个维度,对3种文本特征表示方法和5种分类算法进行组合,形成15种分类模型作为比较对象.基于所设计的比较流程,以从媒体阅读网站SKIP-GRAM爬取SKIP-GRAM的3000条不同类别的资讯文本为研究语
轨迹数据挖掘对于基于位置的应用非常重要,而轨迹划分是轨迹数据挖掘的重要步骤.节点的运动轨迹数量很大,轨迹形状迥异千差万别,使得轨迹划分成为轨迹数据挖掘的关键和难点.轨迹划分的目的是去掉多余的轨迹点,留下重要的轨迹点数据,且要求处理后得到的轨迹留有原来轨迹的特征.该文从速度和加速度等方面分析了节点的运动行为,提出了一种基于双速度特征的轨迹划分方法(trajectory partition method based on double velocities,TPDV).在TPDV中,首先通过检测节点移动速度的
近年来,高维数据算法在诸如机器学习领域以及模式识别当中有着十分广泛的应用.降维算法的目的是为了揭示出在高维数据空间中样本数据的固有的组成特性,关注于寻找原始数据集特征表示中有价值的信息.相邻区域选择问题对流形学习降维算法的性能改进至关重要.因此,该文提出一种流形学习降维算法中的新动态邻域选择方法Mod-HLLE(modified Hessian locally linear embedding).该方法针对Hessian布局线嵌入方法HLLE进行了考察,Mod-HLLE算法是针对高维数据的局部线性嵌入降维
针对卷积神经网络应用于图像分类任务时需要大量有标签数据的问题,提出一种融合卷积神经网络和聚类分析的无监督分类模型,将无监督算法引入深度学习,并将该模型应用到图像分类领域,来弥补现有分类方式的不足.首先对经典卷积神经网络AlexNet从网络结构和模型训练两个方面进行优化;然后利用改进后的自适应快速峰值聚类算法指导聚类过程,该模型在学习整个网络参数的同时对卷积输出的特征进行聚类,这两个过程迭代进行,以达到对图像进行无监督分类的目的;为了验证所提出的无监督图像分类模型的可行性和有效性,选用了四个常用于图像分类领
互联网购物逐渐走进人们生活,人们在购物的同时也会留下海量评论文本,这些文本蕴含着巨大的价值和情感倾向,通过分析这些服装电商评论文本情感倾向,为推荐系统提供了参考.传统的算法难以提取到文本更深层次的情感特征,难以达到很好的效果.因此,该文提出了一种基于多层注意力机制BiGRU-SD-Attention的算法模型.首先,通过分布式爬虫采集服装电商评论文本,将文本数据进行清洗,划分为词语级别和句子级别数据集;利用BiGRU网络提取文本的正、负情感特征,然后对词语和句子分别运用注意力机制进行情感特征的重新加权计算