论文部分内容阅读
随着信息技术的飞速发展,零售企业积累了大量的历史数据,商业企业意识到如何利用这些信息对企业的发展来说是至关重要的。因为想要在未来的市场占有举足轻重的地位,必须拥有消费者、竞争对手、本公司的财务情况等信息,从中获取可靠、准确、及时的信息来进行正确的决策是商家的迫切需求。本文研究的正是如何将数据挖掘技术应用在零售业领域。 本文首先论述零售业数据挖掘现状和零售业数据挖掘目的,以及零售业业务特点和当前国内零售业数据挖掘面临的困难;接着介绍粗糙集理论和它在数据挖掘中的应用。在上述研究的基础上,本文提出了一个基于粗糙集理论的零售业数据挖掘体系结构,设计了与此配套的相关数据挖掘算法;最后通过一个实例验证研究结果的有效性。 本论文提出的零售业数据挖掘系统体系结构由三个层次构成:数据准备层、数据预处理层、挖掘评价层。它能够有效地从数据库中提取出有用的知识并经过评价系统进行反馈校正,建立业务知识库,给决策者提供高质量的决策信息和决策支持。其数据挖掘过程中的大部分任务,均由基于粗糙集理论的算法来承担和完成。 在数据准备层,主要工作是数据收集、数据确认和数据筛选。数据收集是将分布在传统业务模型基础上的数据经过面向决策的数据加工和精练,转移到数据仓库中。数据确认主要是对销售数据、商品数据、客户数据进行定义。数据筛选主要是清除噪声和无关数据。在数据预处理层,本论文通过对基于信息熵的连续属性离散化算法的研究,提出一个改进的算法,增加一个控制阕值。克服了原算法对大数据集的过度适应性。数据完备化使用基于量化容差关系的数据完备化算法实现对遗失数据的填充。本算法中的容差关系矩阵计算对象之间的相似度,并将其量化,提高了缺失对象的补齐能力。经过预处理后形成可供规则提取算法使用的完备信息系统。在挖掘评价层,通过基于近似集的属性约简算法,在完备信息系统上提取最佳约简集,进行属性规约。引入置信度和支持度的概念,设计增量学习式规则提取算法。规则提取分为三个阶段:初始规则库生成、规则更新、规则评价。该算法能适应数据的动态增加,并根据置信度和支持度阕值来对规则进行评价。 本文最后给出一个商场客户行为特征分析的实例,使用本文设计的数据挖掘系统算法,挖掘出购买不同种类羽绒服的顾客特征,验证了本系统的实用性和有效性。