基于数据挖掘的OLAP智能查询推荐技术研究

来源 :浙江大学计算机学院 浙江大学 | 被引量 : 0次 | 上传用户:nixofnj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据库技术的发展以及联机分析处理(On-Line Analysis Processing,简称OLAP)多维分析查询方法的普及,与其相关的服务和产品成为了业界关注的焦点。而OLAP查询分析操作复杂,一般用户在短时间内难以熟练掌握,进而影响其发挥应有作用。如何在分析过程中帮助普通用户进行高效查询,已成为OLAP应用中亟待解决的问题。针对OLAP操作复杂导致的用户使用效率低下问题,本文提出基于操作序列挖掘的OLAP查询推荐方法,并开发了一整套挖掘OLAP多维分析查询序列模式,以此预测用户未来查询操作,并将之推荐给用户的实用系统。首先从多维表达式(multidimensional expression, MDX)查询语句记录中提取整数数列形式的查询序列,再利用序列模式挖掘方法对查询序列进行频繁序列模式挖掘,并在挖掘出的模式及其子模式的基础上建立概率矩阵,最后通过搜索与用户当前查询操作或查询序列匹配的候选模式对其下一步查询操作进行预测,并将预测结果按概率大小分级推荐。总的来说,本文的主要研究工作和贡献如下:(1)本文提出了一种解析现行MDX多维查询语言的方法,在给定多维数据集的条件下,从连续的每条MDX查询语句中提取维度层次及操作类型信息,将之抽象转化成数字,由此将连续查询序列转化为一维数组。它支持跨维度跨层次的查询,支持现行的OLAP查询操作种类,如钻取、切片、旋转等。(2)根据所转化的抽象查询序列自身特点,研究并提出了基于PrefixSpan的查询序列模式挖掘改进算法。研究了基于概率的查询预测问题,阐述了建立概率矩阵计算未来查询操作的方法,并与查询推荐相结合,将结果显示给用户。(3)在7位OLAP专业分析人员的查询分析日志数据集上对本文提出的查询推荐方法进行性能评价,实验结果表明使用用户相关模型前五推荐内容的平均正确率为92.20%,其中第一推荐的平均正确率为77.06%;使用公共模型前五推荐内容的平均正确率为81.89%,其中第一推荐的平均正确率为60.85%。通过实验论证了本文提出的OLAP查询推荐技术适用于用户相关和用户无关两个方向的预测及推荐。
其他文献
现在越来越多的企业、组织利用网络通信系统开展各种业务活动,系统的安全性日益受到人们的关注。如何有效地认证用户身份的真实性,保护通信过程中信息的安全性成为这些系统必
近年来,随着Internet的飞速发展,分布式系统的应用范围和规模出现了极大的改变,其带来的显著变化之一是大规模的信息发布系统的广泛使用。传统的同步通信模型由于其紧耦合的
目前,信息系统市场需求日益增大,而传统的软件开发模式和软件架构越来越无法满足日趋复杂的客户需求和随时发生的需求变化。随着市场的需要,软件开发理论在不断的发展完善,面
学位
在现代服务业大力发展的今天,异构网络融合已经成为必然趋势。多种接入方式并存,多种形式的终端共存,以及用户跨终端无缝切换于现代服务业应用,这些场景已经不仅仅是未来的愿
无线网络优化工作是基于采集上来的各种反映网络状态数据的研究分析而展开的,数据的有效性、真实性对于优化工作的开展具有十分重要的意义。在各种网络优化数据来源中,MR测量
互联网信息技术快速发展,为满足人们对浩瀚网络文本信息的检索需求,文本聚类逐渐成为人们研究的焦点。在文本聚类过程中,关键词提取与聚类算法分析起着至关重要的作用。为改
随着计算机辅助计算、多媒体应用以及计算机网络等技术的飞速发展和推广应用,网络教学成为一种最具应用前景的远程教育模式,并从根本上改变了人们的学习方式。当前中文在线考试
自20世纪70年代Mandelbrot提出分形的概念后,分形几何学作为一门新兴的交叉学科,受到学术界的广泛重视。分形理论主要描述自然界和非线性系统中不光滑和不规则的几何形体,它
优化问题是科学与工程应用中的一类重要问题,它包括组合优化问题和函数优化问题。研究者们已对优化问题开展了大量的研究工作并提出了很多解决方法。然而,在科学与工程应用中
历经几千年的发展,水墨画形成了诸多的风格派系和繁杂的技法。这使得水墨画的学习难度大、不易掌握,在普通大众中出现难以推广的尴尬境地。而将其应用于动画产业中制作又太复杂