论文部分内容阅读
随着零售业的数据日益增多和随着信息技术的飞速发展,商务智能在零售业的应用,已成为信息系统与电子商务管理理论界研究和行业关注的热点。购物篮分析是关联规则挖掘在零售业中的一种有效方法,其目的是在顾客的购买交易中分析出同时购买一类产品或一组产品的可能性,有利于商品的摆放和提高促销效果。最初研究的关联规则是布尔型关联规则,其典型算法有Apriori和FP-growth等。然而零售业的数据库有着丰富的数据类型,如数值型、枚举型等,传统的布尔属性关联规则挖掘算法Apriori已经不再适用,因此要研究量化关联规则挖掘技术。在量化关联规则挖掘中,预处理中的离散化是关键。本论文成功把基于模糊聚类的量化关联规则挖掘算法应用到零售数据中。针对量化关联规则挖掘技术这一研究热点,本论文以购物篮分析为应用背景,以美国零售业数据DMEF(Direct Marking Educational Foundation)为研究对象,重点研究一种适用于零售数据的量化关联规则挖掘算法。本论文完成的工作主要有:首先,本论文在对DMEF的代表性数据进行分析,总结数据具有数据冗余、存在空缺值随机性、非均匀分布等特点。同时,针对关联规则挖掘任务,本论文阐述了量化关联规则挖掘DMEF数据进行了一些必要预处理的步骤,如:数据清理和空缺值填充(详见第三章)。其次,本论文分析了现阶段常用的量化方法及其应用范围,并归纳为三大类,分别为基于等区间划分的离散化方法、基于等频划分的离散化方法和基于聚类的离散化方法。同时,结合DMEF,用实验来证明前两种方法的有效性,分析其优缺点(详见第四章)。最后,本论文结合模糊C-均值算法FCM和经典布尔型关联规则挖掘算法Apriori,提出一种基于模糊聚类的量化关联规则挖掘算法,设计出量化关联规则挖掘的框架设计及步骤,解决零售业中Apriori算法无法使用数值型属性进行关联规则挖掘的问题。利用该算法操作既能体现数据分布特点;能软化属性论域的划分边界,合理化的离散区间;也能有效解决“过小置信度”和“过小支持度”等问题,最终挖掘出更多有价值的关联规则。该算法对零售业的战略决策有一定的指导作用(详见第五章)。