论文部分内容阅读
数据挖掘能够从大型数据库中提取或“挖掘”出人们有用的知识,甚至利用已有的数据对未来事物的变化趋势进行预测,关联规则是数据挖掘领域中的一个主要的研究内容,用于表明数据项集之间的规则或模式联系。本文正是对基于经典Apriori的加权关联规则挖掘算法进行研究,并将研究成果应用到电子商务推荐系统中。本文首先概述了数据挖掘及关联规则的相关基础知识,重点剖析了Apriori算法,对其进行阐述和性能分析。针对Apriori算法会忽略概率小但重要性高的项目可能生成过多无趣关联规则的缺陷,引入权值思想,避免重要事物被忽略的可能性;研究加权关联规则挖掘算法中通用的定义和模型,引入k-支持期望作为剪枝过程的依据,克服了加权算法不收敛性的缺陷;针对常规关联规则算法的缺陷——重复扫描目标数据库且生成大量不必要的候选项集,引入矩阵思想,减低时间的消耗及空间的占用。基于以上两点提出基于矩阵的加权关联规则模型及算法:利用矩阵运算求和计算项集支持数,不需要扫描数据库,对数据库的总体扫描次数减至一次;将加权支持度的计算模型进行变形处理,引用了最小加权支持数,省去计算各项集加权支持度,再与最小加权支持度进行对比的过程,而是在频繁(k-l)-项集连接时利用矩阵运算求出项集支持数,与对应最小支持数对比直接产生频繁k-项集,不生成候选项集。详细说明改进算法的思想和执行流程,通过多组数据实例对比验证,该算法避免了大量I/O操作,所耗费的时间极大减少,规则收敛性较常规加权算法有了一定的提高,具有较强的实效性。最后将改进的挖掘算法应用于商业的推荐系统,比较分析了与基于传统加权关联规则的推荐系统的在效率上的区别。在离线部分数据挖掘操作模式下,提高了原算法的运算速度,节省了产生了加权关联规则的时间,加强了人机交互界面的友好性。最后通过实际数据验证了算法的实效性,得到的关联规则和推荐结果对用户能起到积极的指导作用。