论文部分内容阅读
计算机技术和互联网技术的快速发展,使得社会信息化、商业智能化越来越发展剧烈,经济全球化、一体化也越来越为现代物流业所追求,促使物流也需要充分利用信息技术来提升市场竞争力和利润。从企业级的大量数据中搜寻有决策支持作用的信息就需要用到相关技术,数据挖掘技术就变得非常的重要。数据挖掘有很多种,而关联规则挖掘使用的最为广泛。使用关联规则挖掘技术可以在CRM(Customer Relationship Management)、ERP(Enterprise ResourcePlanning)等业务中应用,为企业提供更加合理、适用的管理方案,为运营提供优化的资源分配方案,使资源利用最大化、成本消费最小化,提高服务质量和客户满意度,增大企业的盈利。一般的关联规则挖掘算法,都默认所有的物品的价值一样,进行挖掘时没有对每种物品所带来的利润价值进行考虑,而企业所关心的是获利,所以这样的数据挖掘就没有真正从企业的兴趣度出发进行实施。另外由于需要进行挖掘的数据量一般都是企业级,非常巨大,所以当系统内存不够时及使用多次扫描数据库的算法时,就会进行大量的I/O操作,从而影响了运行时间和效率。本论文进行了深入研究,首先介绍了物流信息系统、数据挖掘技术相关知识和概念,并参考在此范围内研究人员的成果,提出了一种基于划分技术的加权关联规则挖掘算法---WPARAlgorithm。通过将该算法加载到SQL Server2008中,采用SQL Server2008进行数据处理,对该数据集进行挖掘并改变不同的参数进行挖掘,同时使用SQL Server提供的关联规则挖掘算法对该数据集在相同条件下进行了挖掘,对两个算法的性能进行比较,验证了WPARAlgorithm的优越性。WPARAlgorithm将大数据库划分为可以放在内存中的小分块,每次都单独对一块进行操作,即这些操作都在内存中进行,避免了大量的I/O操作,提高了算法的速度。同时,对连接步骤进行了压缩和优化避免了模式匹配操作,以提高性能。并采用了以利润为基础的加权方法。根据企业的需要,以加利润权值区别对待不同的项集,这样使得产生的规则将更加迎合企业的兴趣,对企业更加有用。