论文部分内容阅读
随着数据库技术的发展以及联机分析处理(On-Line Analysis Processing,简称OLAP)多维分析查询方法的普及,与其相关的服务和产品成为了业界关注的焦点。而OLAP查询分析操作复杂,一般用户在短时间内难以熟练掌握,进而影响其发挥应有作用。如何在分析过程中帮助普通用户进行高效查询,已成为OLAP应用中亟待解决的问题。针对OLAP操作复杂导致的用户使用效率低下问题,本文提出基于操作序列挖掘的OLAP查询推荐方法,并开发了一整套挖掘OLAP多维分析查询序列模式,以此预测用户未来查询操作,并将之推荐给用户的实用系统。首先从多维表达式(multidimensional expression, MDX)查询语句记录中提取整数数列形式的查询序列,再利用序列模式挖掘方法对查询序列进行频繁序列模式挖掘,并在挖掘出的模式及其子模式的基础上建立概率矩阵,最后通过搜索与用户当前查询操作或查询序列匹配的候选模式对其下一步查询操作进行预测,并将预测结果按概率大小分级推荐。总的来说,本文的主要研究工作和贡献如下:(1)本文提出了一种解析现行MDX多维查询语言的方法,在给定多维数据集的条件下,从连续的每条MDX查询语句中提取维度层次及操作类型信息,将之抽象转化成数字,由此将连续查询序列转化为一维数组。它支持跨维度跨层次的查询,支持现行的OLAP查询操作种类,如钻取、切片、旋转等。(2)根据所转化的抽象查询序列自身特点,研究并提出了基于PrefixSpan的查询序列模式挖掘改进算法。研究了基于概率的查询预测问题,阐述了建立概率矩阵计算未来查询操作的方法,并与查询推荐相结合,将结果显示给用户。(3)在7位OLAP专业分析人员的查询分析日志数据集上对本文提出的查询推荐方法进行性能评价,实验结果表明使用用户相关模型前五推荐内容的平均正确率为92.20%,其中第一推荐的平均正确率为77.06%;使用公共模型前五推荐内容的平均正确率为81.89%,其中第一推荐的平均正确率为60.85%。通过实验论证了本文提出的OLAP查询推荐技术适用于用户相关和用户无关两个方向的预测及推荐。