【摘 要】
:
随着大数据、物联网的普及,数据产生的速度越来越快,数据量越来越多。为了从这些大量的数据中发现可利用的数据,数据挖掘应运而生。模式挖掘是数据挖掘的一个重要研究领域,其目标是从数据中发现事物之间可能存在的某种模式关联。从模式挖掘中寻找频繁共同出现的项目称为频繁项集挖掘。序列模式挖掘是频繁项集挖掘更深层次的研究,它不仅考虑了项目在事务数据库中是否出现,而且还考虑了项目出现的先后次序,在现实生活中应用更广
论文部分内容阅读
随着大数据、物联网的普及,数据产生的速度越来越快,数据量越来越多。为了从这些大量的数据中发现可利用的数据,数据挖掘应运而生。模式挖掘是数据挖掘的一个重要研究领域,其目标是从数据中发现事物之间可能存在的某种模式关联。从模式挖掘中寻找频繁共同出现的项目称为频繁项集挖掘。序列模式挖掘是频繁项集挖掘更深层次的研究,它不仅考虑了项目在事务数据库中是否出现,而且还考虑了项目出现的先后次序,在现实生活中应用更广泛,因此更有研究价值。基于约束的序列模式挖掘是在序列模式挖掘的基础上,把约束嵌入到挖掘过程中,从而节省大量的时间、空间,并且可以挖掘到更符合约束需求的序列模式。本文以大规模在线开放课程(Massive Open Online Courses,MOOCs)的选课数据为对象,为了以更高效的方式挖掘更适合用户的序列模式,分别提出了基于兴趣约束的序列模式挖掘算法和基于灵活约束的序列模式挖掘算法。具体来讲,主要的研究内容包括:1)提出一种基于兴趣约束的序列模式挖掘算法来挖掘序列模式。首先,设计了意外支持度来取代传统意义上的支持度。其次证明意外支持度也满足向下闭合属性。接着,重新定义了一个项目列表结构和一个序列列表结构,并且根据数据集的特征,新提出一个序列位置列表结构。这三个结构用于剪枝,可以缩小搜索空间。最后,本文详细描述和解释新算法FAST-USP,并且从运行时间、内存消耗和挖掘到的模式数量三个方面展示实验结果,验证了FAST-USP算法的优越性。2)提出一种基于灵活约束序列模式挖掘算法来挖掘序列模式。首先提出了三种约束,即长度约束、离散性约束和有效性约束。他们是用来描述选课序列的长度,选课时间的离散性,选课时刻的有效性。把三种约束按照一定比例融合形成灵活约束。把这种灵活约束嵌入到序列模式挖掘最重要的参数支持度中,形成一种带灵活约束支持度。接着证明灵活约束支持度同支持度一样满足向下闭合属性,最后以类Apriori和模式增长的方式进行序列模式挖掘,提出了两种新的序列模式挖掘算法SPM-FC-L和SPM-FC-P。并且从运行时间、内存消耗、挖掘到的模式数量、约束的使用,挖掘到的模式结果五个方面展示实验结果,验证了所提算法的优越性。
其他文献
不负证明责任当事人事案解明义务作为证明负担减轻理论的一部分,应对证据偏在情形时能够很好地平衡双方当事人接近和使用证据资料的能力。在我国现有解决证据偏在问题方式存在不足的情况下,通过借鉴比较法上事案解明义务的运用经验,结合我国立法状况和诉讼环境,认为我国应当以诚实信用原则、合作式诉讼观念为理念指导;以当事人陈述义务、文书等证据提出义务和勘验容忍义务为基点,细分当事人陈述类型,设立当事人附理由否认义务
<正>2020—2021年,西双版纳州农业科技部门对粮食生产早计划、早安排,不断推广新技术、新品种,良种覆盖率95%以上,推广了19项农业科学技术在粮食生产中的应用。但因耕地“非粮化”现象严重,粮经争地矛盾日益突出,自然灾害发生频繁,农田水利设施薄弱,新型农业经营主体融资难、融资贵,粮食价格过低和农资成本过高影响了西双版纳州农户种粮的积极性。落实全州粮食功能区的划分,稳定现有粮食种植面积,加大科技
<正>据海关总署12月发布的数据:2022年前11个月,我国进出口总值38.34万亿元,比去年同期(下同)增长8.6%。其中,出口21.84万亿元,增长11.9%;进口16.5万亿元,增长4.6%;贸易顺差5.34万亿元,扩大42.8%。东盟为第一大贸易伙伴,欧盟次之前11个月,我国一般贸易进出口24.47万亿元,增长12.4%,占我国外贸总值的63.8%,比去年同期提升2.2个百分点。
经济的增长及电商行业的兴盛,促进了我国快递行业的高速发展。为解决日益增长的快递配送需求和效益低下的传统快递配送之间的矛盾,文章以A公司北京市顺义区的快递配送为例,综合考虑车辆配送成本和一般路径约束等条件,构建了以配送成本最小为目标的车辆路径问题的数学模型,并运用遗传算法对模型进行了求解,最终有效地降低了A公司配送成本,优化了配送车辆调度,证实了算法的可行性。
作业是学生巩固化学知识的重要方式,通过作业能够让学生对化学知识有一个更深入的认识。高中化学学科对学生来说是一个比较困难和抽象的学科,为了提高高中化学教学效率,教师必须注重优化化学学科的作业设计,做到规范实用、形式多样,以此为教育质量的提升奠定优良基础。
绝缘栅双极型晶体管(Insulated Gate Bipolar Transistor,IGBT)是一种利用金属-氧化物半导体场效应晶体管(Metal Oxide Semiconductor Field Effect Transistor,MOSFET)驱动双极结型晶体管(Bipolar Junction Transistor,BJT)实现导通的复合型器件,兼具MOSFET和BJT的优点,自问世以
<正>基本情况近年来,临汾市票据业务发展较快,交易规模持续扩大,截至2019年6月末,临汾市票据融资余额140.27亿元,占各项贷款的比重为9.1%。从企业层面来看,临汾市银行承兑汇票中约50%是为满足中小企业融资需要所签发的。从数据来看,一是中小企业票据承兑业务稳步增长。截至2019年6月底,临汾市辖内银行承兑汇票累计发生额100.55亿元,较2018年增加18.31亿元,
目的 观察肺胀方辅助治疗慢性阻塞性肺疾病急性加重期(acute exacerbation of chronic obstructive pulmonary disease,AECOPD)疗效及对营养状态的影响。方法 选取2020年5月至2021年5月绍兴市中医院收治住院的AECOPD患者80例,采用随机数字表法分为对照组和研究组,每组40例。对照组给予西医常规治疗,研究组在对照组基础上辅以肺胀方治
构建大数据审计采集技术体系的关键是大数据的采集及其标准化处理,如何从纷繁的数据中快速有效地找到所需数据,正逐渐成为大数据审计发展的关键因素。大数据审计采集技术体系主要由数据库采集技术、系统日志采集技术、感知设备采集技术和网络数据采集技术四方面构成。本文针对上述四方面的原理与应用进行深层次研究,以期促进审计采集技术的高质量发展。