【摘 要】
:
近年来,不确定数据(Uncertain Data)得到了越来越广泛的重视。数据的不确定性本身存在于许多真实世界的应用,例如传感器数据监测、环境监视、移动轨迹、定位服务,归因于环境
论文部分内容阅读
近年来,不确定数据(Uncertain Data)得到了越来越广泛的重视。数据的不确定性本身存在于许多真实世界的应用,例如传感器数据监测、环境监视、移动轨迹、定位服务,归因于环境因素、设备缺陷、人为问题等。数据不确定性普遍存在的同时,且不确定性数据往往扮演着关键角色。不确定数据挖掘也成为数据挖掘领域中一个非常重要的研究课题。本文以不确定性数据的频繁序列模式挖掘算法作为研究对象。相比于确定序列数据库,不确定序列数据库中挖掘序列模式更加复杂,其通常有着更大的搜索空间。由于数据的不同,已知的目前被广泛应用的基于确定数据的序列模式挖掘方法也不能够直接用来解决不确定序列模式挖掘问题。本文分析了在确定的数据中挖掘序列模式的方法,分别基于候选集生成-测试框架与基于模式增长框架,介绍了几个经典的序列模式挖掘算法。通过对序列模式挖掘算法的分析,得知模式增长框架相比候选集生成-测试框架更具有扩展性。然后,阐述了不确定数据挖掘的一些基础理论。给出了可能世界数据模型,包括源头水平不确定数据模型与事件水平不确定数据模型。对本文所研究的一般不确定序列数据,需要序列模式进行判断是否为可能频繁序列模式,有两种常采用的断定方式:期望支持度和概率频繁。综述了不确定数据中频繁序列模式挖掘算法,给出了不确定数据中挖掘频繁序列模式的一般思路与方法。通过不确定序列模式挖掘算法的比较分析,联系到经典的序列模式挖掘理论框架,得知模式增长框架比候选集生成框架更具扩展性。其中在对不确定数据序列频繁性的判断上概率频繁性优于期望支持度,同时在计算概率频繁上分而治之策略相对动态规划策略开销少些。对于不确定数据的频繁序列模式挖掘,会导致可能频繁模式数量的指数级出现,其中有些无用的挖掘结果,引起频繁序列的冗余。针对上述不足,提出了可能频繁闭序列模式(pfcsp)的定义,以及一种基于不确定数据的可能频繁闭序列挖掘算法U-FCSM。此算法中,基于一种元组不确定数据模型,采取分而治之的策略去计算序列的概率频繁性,应用BIDE算法的闭序列思想判断可能频繁序列是否是可能频繁闭序列模式。为了减少搜索空间与避免冗余的计算,应用了几个剪枝与边界技术。U-FCSM算法的有效性与效率通过大量的实验得以表明。
其他文献
数字图像经常会被各种各样的噪声污染,图像中的噪声一直困扰着人们,图像去噪是数字图像处理中一门很重要的研究课题。现如今出现了很多优秀的图像去噪方法,其中非局部均值(NL
近年来,随着经济一体化进程的加快,信息技术的飞速发展,计算机应用已逐渐渗透到我们的生活、学习、工作当中。基于B/S结构的Web应用,因其具有易用性、通用性和良好的可扩展性
二维材料作为一种新型材料,自发现以来蓬勃发展,现已涵盖了导体、半导体、超导体和绝缘体等各种类别。其独特的性质使其从光电器件和自旋电子器件,再到光电催化剂、柔性储能
在信息技术飞速发展的21世纪,信息技术正悄然改变着学生的学习内容和学习方式,正如2019年年末突发的新冠疫情,武汉封城,各中小学利用钉钉学习平台及各省的学习平台在线上开展
病理图像是疾病诊断的金标准,所以病理图像的质量对医学诊断至关重要。然而由于各种外界因素可能导致医生制作的病理图像存在噪声和边缘细节模糊等问题,使得病理科医生无法作
"互联网+"使数字劳动遍布各产业,不断拓宽数字劳工外延。以肇端浙江织里的重大舆情事件"妞妞案"为分析案例,基于"新自由主义式例外"理论,用民族志研究诠释微信平台何以建构"
CRTSⅢ型板式无砟轨道是我国自主研发设计的、具有完全知识产权的无砟轨道结构,采用预制轨道板,现场混凝土用量较少,施工简单,整体性较好,在我国大面积推广使用。CRTSⅢ型板式无砟轨道道床板由预制轨道板和现浇自密实混凝土层构成,若施工不当,轨道板与自密实混凝土层间会出现微裂纹等现象;在列车和温度荷载作用下进一步发展为更加严重的伤损,如轨道板与自密实混凝土层间离缝冒浆、层间脱空和自密实混凝土掉块等。一
面对公司,消费者存在信息不对称与组织程度不对等的天然不足,《消费者权益保护法》等法律从事后救济的角度为消费者权益提供保护,无助于从实质上矫正消费者相对于公司的劣势,
随着大数据时代的到来,作为海量数据处理的代表技术,Hadoop受到了越来越广泛的关注。Hadoop实现了分布式文件系统HDFS和分布式计算框架Map Reduce,其高扩展性,高容错性以及低
毛竹林生物量是竹林生态系统物质循环的基础,也是评价毛竹林生产力和衡量毛竹林经营水平的重要指标。毛竹林生物量的形成是一个受多因素共同作用的复杂过程,但现有研究普遍从立地因子或林分结构单一方面分析其对毛竹林生物量的直接影响,忽视了立地因子和结构因子的关系及其对毛竹林生物量的间接影响。本研究以浙江省少受人为干扰的毛竹林为对象,在全省东、南、西、北和中部10个县市(区)共设置52个样地,通过随机森林算法和