论文部分内容阅读
随着信息技术的发展,企业的信息管理系统保存了包括生产运作、销售、客户和产品等方面的大量数据。由于传统的信息系统缺乏有效的分析方法和技术,这些数据被深埋在各自系统设备中,企业处在“数据多、信息少”的尴尬境地。20世纪后期,商业智能((Business Intelligence)应运而生,它主要运用数据仓库(Data Warehouse)、联机分析处理(OLAP)和数据挖掘技术(DM)这三大核心技术处理和分析商业数据,辅助用户解决商务活动中遇到的不确定性问题,从而帮助和改善管理决策以提高其生存能力。商业智能在20世纪90年代有了突飞猛进的发展。近年来商业智能研究的热点主要集中在支撑技术、体系架构和应用系统三个方面,本文主要在支撑技术和应用这两个方面做了研究。 传统的事务处理型数据库技术已经无法满足现代企业复杂的商业信息处理和分析需求,1991年,W.H.Inmon首次提出数据仓库的概念。本文首先研究了数据仓库的基本原理及其与商业智能的关系,并基于SQL Server2008 BI平台创建了以销售和库存为主题的数据仓库。传统的联机事务查询已经无法满足企业决策人员的多维复杂查询需求,本文在销售库存数据仓库中,构建了销售库存多维数据集,在SQL Server2008 BI平台实现了企业级的多维度、多层次的OLAP技术。 数据挖掘技术可以从商业数据中发现新的商业模式,为企业提供决策和预测支持。对于直接营销(Direct marketing)商业问题,针对连锁型零售企业的客户多、门店多和客户购买行为随机分散的特点,本文利用原型挖掘模型选择理论提出了EM聚类朴素贝叶斯分类模型,采用先聚类再分类的基本思想,解决了单一挖掘模型因为没有足够数量的客户购买事件数据而影响和降低挖掘模型分类精确度的问题。实验证明,EM聚类朴素贝叶斯分类模型在客户购买行为分类预测方面明显优于K-means聚类朴素贝叶斯分类模型和无聚类的朴素贝叶斯分类模型。 OLAM(On-Line Analytical Processing Mining)是研究如何将OLAP和数据挖掘有机结合、优势互补的热点技术。本文利用在数据仓库中构建的销售库存数据立方体作为数据源,提出了基于OLAM的EM聚类关联挖掘模型。该模型利用OLAM可以在不同维度和不同粒度上实现数据挖掘的优势,针对交叉销售(Cross selling)问题,先用客户维度信息提取客户的人口统计特征聚类模式,再把客户聚类模式信息作为新的分析维度引入到维间关联规则挖掘中,实现了聚类和关联规则两种挖掘算法与OLAP的有机融合。最后在SSAS数据挖掘工具实现了该OLAM模型,并得到了每个门店的交叉销售方案。实验证明,该OLAM EM聚类关联挖掘模型具有更好的灵活性和有效性。