基于数据流的频繁项集挖掘算法研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:edgesoft_h
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着5G、人工智能、云计算等信息技术的高速发展,与之相匹配的数据流挖掘算法已无法满足当前需求,在数据流中进行数据挖掘越来越受到研究者的关注。但是数据流中的数据挖掘存在诸多限制,其内存有限,对挖掘算法的要求更高,使得数据流中的数据挖掘存在更大的挑战。关联规则挖掘是数据挖掘的一个重要组成部分,它挖掘不同事务、不同属性之间的潜在联系。本文基于数据流重点进行关联规则中的频繁项集和最大频繁项集挖掘,在挖掘时采用高效的数据压缩结构压缩数据,采用超集检测策略降低数据量,采用高效方法计算支持度计数,从多方位、多角度对数据流频繁项集挖掘进行了深入研究与分析。主要内容如下:论文首先研究改进经典数据流频繁项集挖掘FIUT-Stream算法,提出了一种高效的数据流频繁项集挖掘算法。改进算法采用常用滑动窗口处理数据流,并采用高效位表进行数据压缩,在支持度计算时直接操作位表,通过求与运算计算支持度,实现了支持度的快速计算。该算法挖掘频繁项集,只需对项集所有项在位表中所在的列求与,即可得到该项集支持度计数,从而进行频繁项集的判断,同时在频繁项集挖掘过程中进行超集检测策略降低挖掘数据量。实验结果表明,该改进算法在保证挖掘出的频繁项集准确有效的前提下,挖掘效率更高。接下来论文在以上改进算法的基础上提出一种时间效率和空间效率均表现良好的最大频繁项集的挖掘算法。该算法沿用滑动窗口处理数据流,采用高效压缩位表对数据进行压缩,当滑动窗口中数据填满有新数据流入时,采用简单加减进行支持度更新;在挖掘对最大频繁项集进行挖掘,相较于频繁项集的挖掘在数量级上降低好几个等级,同时从最长项集开始挖掘,结合最大频繁项集的相关性质,在挖掘最大频繁项集过程减少挖掘量。在不同数据集、多实验参数变化情况下的实验结果表明,该算法在进行最大频繁项集挖掘时有良好的效果。论文最后从精准挖掘、概念漂移、新兴技术使用等方面进行了研究展望,提出了未来的一些可能研究方向。
其他文献
可靠性统计是数理统计一个应用较广的分支,而可靠性评定是可靠性统计的重要组成部分,系统可靠性指标的评定具有重要应用价值,研究系统可靠性的估计问题就成为了一个特别有意
足式机器人具有优秀的地形适应能力及多任务处理能力,在勘探、救援、教育等众多领域具有广阔的应用前景,特别是面对复杂野外环境作业需求,相对于其他类型的移动装备,足式机器人是最有效的解决方案。要充分发挥足式机器人的复杂地形运动能力,需要高度成熟的运动控制系统和性能优异的机体构件。在高度复杂地形中,合理的落足点规划是保证足式机器人平稳行进的必要条件,而足端作为机器人与地面的唯一接口,其性能是影响落足点选取
尽管我国小微企业数量占据国内企业数量超过90%,承担了 70%以上的税收和就业,但小微企业的信贷一直都是制约着我国小微企业发展的瓶颈之一。但随着我国经济进入L型,中国银行
随着大数据、云计算等一系列互联网技术和产业的发展,云存储作为一种方便可靠的信息存储技术,得到了越来越广泛的应用。与此同时,云存储存在着很多传统的存储技术所没有的安
政治伦理是在社会历史框架下某阶段政治关系的准则,是将伦理思想运用于政治生活的实践部分。本文试论述儒家传统政治伦理思想发展至南宋时,在宋明理学的发展和社会历史变革内
如今各企业制造商不只是单纯依赖国内供应商,他们通常寻求海外供应商以获得更优质的供应质量和更低的成本。这种做法与商业全球化趋势相一致,但同时也不可避免地给供应链管理带来了额外的质量风险。由于制造商需求的个性化和供应商产品的多样性,制造商和供应商之间的良好匹配变得越来越重要,质量匹配水平已经成为企业创造持续竞争优势的重要手段。制造商和供应商之间有效和专业的质量匹配能够创造增值服务以及解决定制方案,从而
本文主要研究从墨西哥独立到墨西哥和清朝建立外交关系期间,墨西哥国内政治及其对外关系对中国移民的影响。由于西班牙人口学特征和墨西哥的自然和人力资源,西班牙对墨西哥的
跨入信息时代,信息技术日新月异,新军事技术也进入指数层级的爆发阶段。信息化技术的突飞猛进,给新时期的军事变革带来了巨大的推动。它不仅推动着部队军事转型发展的方方面
本文根据现有语料,结合相关语言学理论知识,围绕汉语口语表达式“V+一个”,首先分别从句法、语义和语用三方面依次对其进行了考察,其次探究了该结构的生成机制和形成动因,最
模式识别和机器学习(Machine Learning,ML)已广泛应用于许多安全敏感的领域中,如人脸识别、无人驾驶汽车以及入侵检测等。机器学习技术本身的安全性也越来越受到关注,因此对抗性机器学习成为研究热点。在对抗性环境中,机器学习技术面临着被攻击者攻击的威胁,即攻击者会篡改少量样本来诱使分类器做出不正确的分类决策。逃避攻击是对抗性环境中常见的攻击类型,即攻击者在测试阶段篡改恶意样本从而使篡改后的