【摘 要】
:
多元时序数据广泛存在于各行各业,人们通过部署传感器来获得反映系统特征的数据,并通过数据挖掘得到有用的结果。多元时序数据具有结构简单,可解释性强的优点,能直观地揭示数据间的时序关系。然而数据往往是海量且动态更新的,因此如何从中快速挖掘最新的序列模式是值得研究的重要问题。本文首先定义了多元时序数据上的状态转移模式(State Transition Pattern with Perioidc Wildc
论文部分内容阅读
多元时序数据广泛存在于各行各业,人们通过部署传感器来获得反映系统特征的数据,并通过数据挖掘得到有用的结果。多元时序数据具有结构简单,可解释性强的优点,能直观地揭示数据间的时序关系。然而数据往往是海量且动态更新的,因此如何从中快速挖掘最新的序列模式是值得研究的重要问题。本文首先定义了多元时序数据上的状态转移模式(State Transition Pattern with Perioidc Wildcard Gaps,STAP)的增量挖掘问题。其次,在三支决策理论指导下,针对性地提出了一种准确、高效的三支增量学习方法(3IU-STAP)。然后,将经典关联规则改进为适合于STAP的时序关联规则,并给出了相应的挖掘算法。最后,设计并实现了一套包含STAP及其时序关联规则挖掘算法的快速原型系统。3IU-STAP(3-Incremental Update-STAP)算法根据原始数据、已有频繁STAP和增量数据构造出候选模式,利用阈值将候选模式划分为进正域、负域和边界域。正域中的模式可直接视为频繁模式并存储;负域中的模式被视为不频繁模式并抛弃;仅边界域中的候选模式需要延迟决策,即通过扫描数据集来判断其是否频繁。准确性方面,设计了增量数据补齐技术,通过该技术来获得候选模式的精确出现次数。效率方面,使用了向下封闭性质来控制候选模式数量,再结合三支决策模型,尽可能减少对数据的重复扫描,进一步节省了时间。高频序列虽然能反映数据中存在的一些潜在规律,但难以体现数据间的相互依存性和关联性。所以我们根据多元时序数据的特性,提出了基于状态转移模式的关联规则挖掘方法,并设计了合理的置信度计算公式。关联规则能更直观地揭示各个状态间的时序性,为用户和专家提供更丰富的决策信息。为体现关联规则挖掘的结果,在四个真实数据集上分别展示了 STAP频繁模式的挖掘结果和筛选关联规则后的可视化结果。同时对于3IU-STAP算法,也在四个真实数据集和两个人造数据集上设计实验讨论了增量算法的总体时间,增量时间,以及可能影响算法的相关因素。结果显示,与非增量方法相比,3IU-STAP算法可以在精确获得结果的同时显著提高时间性能。
其他文献
传统推荐算法使用用户提供的评分来预测用户偏好,但此类算法推荐效果通常受到评分噪声的影响。此类噪声来自于用户随心情随意打分、某些商家通过恶意刷分来提高自己的收益等行为。随着电子商务的快速发展,用户除了可以对购买的商品进行评分以外,电商平台还提供了另一项重要的功能—为商品评论。对于用户评论进行情感分析能够有效地对评分进行去噪以获得细粒度的评分。针对上述问题,本文对推荐算法中最主流的矩阵分解进行研究,并
带压作业操作复杂、施工风险高,因此石油企业需要培训大量专业技术人员来实现稳产、增产的目的。然而传统的培训方法受工况条件约束而培训效率低下。此外,油田现场施工对技术人员的能力要求很高,无法接纳新手开展实训。考虑以上问题,本文设计并实现了基于混合现实技术的带压作业图形系统。主要研究内容如下:1.研究基于分层置信传播(Hierarchical Belief Propagation,HBP)的立体匹配算法
作为石油勘探开发的龙头,钻井作业具有高投入、高风险、劳动密集、野外、重体力、高空交叉的行业特点。在钻井作业的不同阶段和不同的环节中,均存在对人员、设施安全和生态环境等不同程度和不同形式的影响和危害。中国三大石油公司制定了安全生产事故隐患排查治理管理制度和操作规程定,但是,钻井作业事故仍未得到有效遏制。其原因往往在于钻井作业中的人、机、环、管等方面蕴含的事故隐患不能得到及时的排查、治理,从而导致事故
无监督学习作为机器学习、数据挖掘等领域最主要的研究任务,一直受到工业界、学术界的密切关注。其主要特点是在学习算法的学习过程中,不依赖数据的真实结果参照,亦或是数据本身缺乏真实的结果参照,这在实际的数据采集场景下非常普遍。特征学习也是机器学习的一个热门研究领域,它研究的是如何从数据的原始特征集合中提取更适合于具体应用场景的特征表示,并期望替代原始特征集合以获得更好的预测性能。近年来,无监督特征学习经
在碳达峰碳中和背景下,我国能源发展模式和能源体系构建方式正发生重大变革,构建以新能源为主体的新型电力系统促使光伏发电技术在电力系统中的地位和作用越来越凸显。在政策和市场的共同驱动下,近年来,我国分布式光伏装机规模首次超过集中式光伏装机规模,分布式光伏迎来发展机遇期。鉴于此,本文首先论述了分布式光伏的特点、优势,然后分析分布式光伏项目投资模式,最后详细阐述分布式光伏开发建设全流程,包括前期开发阶段、
医疗云存储服务是云计算中一个重要的服务,它在当今健康医疗数据大爆发时代为用户提供一种便捷、灵活和高效的数据管理方式。由于医疗数据的敏感性、数据的传输与存储都是在公开网络中运行、系统的复杂性和公共网络环境下攻击的频发性,使得外包存储的健康医疗数据和用户的身份隐私面临着严峻的安全威胁。特别地,用户通过无线医疗传感器设备收集重要的生理特征参数,通过无线体域网实时地将这些健康医疗数据上传到医疗云服务器进行
车载自组织网络,简称车联网(Vehicular Ad-hoc Networks,VANETs),其在智能交通系统中已经变得越来越重要,它在提高交通安全性和交通效率方面发挥着重要作用。在智能车辆的系统中,智能车辆能够高效地交换重要或紧急的交通信息,能及时帮助驾乘人员做出驾驶决策,因而受到了汽车界和国内外学术界的广泛关注。由于VANETs是一个规模巨大的、开放式的无线局域网络,攻击者可以随意窃听在信道
随着网络科学理论的发展,网络已经成为了一种有效描述数据之间关联性的语言,网络建模分析也广泛运用于各种数据分析场景,成为一种高效的建模分析手段。其中,网络建模分析任务中使用机器学习方法是一种流行且高效的手段,有效的网络表示是实现机器学习方法的关键。目前,基于静态网络的表示学习方法已经基本成熟,但是更多的实际数据是随时间变化的,这样具有动态演化性的数据用网络语言描述就是节点、边都随着时间不断变化的动态
<正>学习任务群视域下的大单元教学,是在素养型目标引领下,对接课标和单元语文要素,确定单元目标,依据教学目标和教材单元教学内容,创设真实的任务情境和挑战性的学习任务,设计能激发学生持久兴趣和深入探究的任务,在学习情境和任务驱动中展开的教学。同时,要特别关注改进教学评价,引导学生在学习过程中形成关键能力和必备品格。笔者选取四年级上册第五单元,找寻本单元任务群的落脚点,进行大单元教学设计,以期实现学生
阐述屋顶分布式光伏项目的规划设计,多方面进行分析,如项目收益、设计规划原则、系统架构设计,从而有利于计算出光伏项目实际投资价值。