格结构数据的内部特性与压缩算法研究

来源 :昆明理工大学 | 被引量 : 0次 | 上传用户:gksd2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在数据仓库和联机分析处理研究领域中存在一种核心数据模型,即数据立方体格,而在形式概念分析理论中也存在一类重要的数据模型,即概念格。数据立方体格和概念格在数据分析领域均有着普遍的应用。本文从数据立方体格与概念格的生成机制和结构特性两个方面来论证两者之间的关系,以图结构的形式来研究格结构的统计特性,实验结果表明,数据立方体格和概念格在其图结构特性(度分布、聚集系数、平均最短路径等特性)上具有相似性。目前,对于数据立方体的压缩技术在其研究领域中被广泛的关注,已成为一个热门研究方向。本文将BUS算法应用到格结构中进行压缩,并对比分析了在不同参数的情况下图聚集压缩格结构在时间、误差率以及信息熵上的压缩效果。主要研究内容如下:(1)将格结构数据看作图数据,从数据立方体格和概念格的生成机制、结构特性(如度的分布、平均最短路径、聚集系数等特性)上通过理论分析和实验论证的方法来探索和研究它们之间的关系;(2)基于数据立方体格在其图结构统计特性中的度分布规律,提出基于分布式计算环境下的边划分和点划分结合的划分方法。(3)基于自底向上的图聚集算法,对格结构数据进行压缩,并分析了不同参数情况下的压缩情况。
其他文献
高分辨率太阳磁场观测是太阳物理学家不懈追求的目标,采用现代图像处理技术与方法处理后期数据可以更充分发挥现有望远镜的工作潜力。对于地基望远镜而言,望远镜的分辨率由地
随着环境恶化、生活压力增大、饮食结构失调等原因使得脑卒中的发病率逐年升高,其中有70%的患者会引起偏瘫症状。目前,偏瘫患者康复治疗以医师一对一辅助运动为主,费用昂贵,
随着传感技术、存储技术以及工业过程复杂度的发展,工业数据信息变得越来越丰富。因此,基于数据驱动技术的工业过程监控方法越来越受欢迎。其中,多变量统计过程监控(MSPM)已
从上个世纪至今,计算机的各个领域都取得了长足的进步,软件作为存储和管理信息的工具,已广泛深入到现实社会的各个领域,成为整个社会的支柱产业之一,正是因为软件的重要性日
随着机器人技术的发展,人工肌肉逐渐成为机器人执行器研究的热点问题。相对于传统的机器人执行器,人工肌肉执行器具有高能量密度、高自由度、无噪音等优点,但由于人工肌肉材
科技以追风逐电的速度渗透到各行各业,使数据量出现爆炸式增长,为减少存储成本与网络开销,重复数据删除技术被越来越广泛地应用于云存储、备份与归档系统中。然而在数据块级
复杂网络是具有一定特征和功能的、相互关联相互影响的若干个基本单元所构成的复杂集合体。近年来,复杂网络研究已渗透到数学科学、生命科学、社会科学与工程学科等众多不同
随着大量移动设备及应用进入市场,很多具有相同功能的应用随即出现,用户如何在其中进行选择,绝大多数是由应用的用户界面(User Interface,简称UI)这种直接与最终用户沟通的媒
近些年来,由于多智能体系统协同控制在人造卫星编队、传感器网络、移动机器人以及自主飞行器等领域巨大的军事价值和潜在的经济价值,已成为各个国家的研究热点。与单个智能体
商业地产项目作为我国经济转型过程中现代服务业与传统建筑业结合的重要产物,在城镇化进程中处于基础设施建设的优先考虑地位。商业地产的发展程度是一座城市发达程度和居民