论文部分内容阅读
移动企业是典型的数据密集行业,拥有海量的用户数据。随着移动服务普及程度和需求程度的日益提高,移动企业的竞争也日趋激烈。企业在竞争中获胜的关键在于如何充分的利用移动数据库中的历史数据,挖掘出隐藏在数据背后对企业有价值有意义的知识,帮助企业制定精准化营销策略,使得企业在竞争中处于优势地位。
本文首先研究了数据挖掘的相关技术、方法和数据挖掘的挖掘过程,着重对关联规则经典算法Apriori算法进行了深入研究,针对 Apriori算法的缺点和不足,它需要频繁的扫描数据库和生成大量的候选项集,提出了一种有效的改进算法。该算法通过减少行扫描数和候选项集的生成数量,从而大大提高算法的效率,实验证明该算法的执行效率明显高于经典 Apriori算法。
然后,针对传统数量型关联规则划分边界过硬等问题,本文基于模糊集理论及其性质对边界进行软化,应用模糊 c-均值聚类算法把原始数值型属性转化为相应隶属度值,有效的避免尖锐边界问题。并通过设定相应阈值,减少支持度的计算量,有效的减少模糊关联规则挖掘的时间,提高模糊关联规则挖掘效率。
最后,结合青海移动的海量历史数据,依据数据挖掘 CRISP-DM流程模型,将改进的布尔型关联规则算法和模糊关联规则算法应用到青海移动 GPRS业务数据中,从而挖掘出客户特征和移动 GPRS业务之间的关联关系。挖掘结果证明了算法的可行性与实用性,并且对移动的营销和策划人员具有积极的指导作用。
本文首先研究了数据挖掘的相关技术、方法和数据挖掘的挖掘过程,着重对关联规则经典算法Apriori算法进行了深入研究,针对 Apriori算法的缺点和不足,它需要频繁的扫描数据库和生成大量的候选项集,提出了一种有效的改进算法。该算法通过减少行扫描数和候选项集的生成数量,从而大大提高算法的效率,实验证明该算法的执行效率明显高于经典 Apriori算法。
然后,针对传统数量型关联规则划分边界过硬等问题,本文基于模糊集理论及其性质对边界进行软化,应用模糊 c-均值聚类算法把原始数值型属性转化为相应隶属度值,有效的避免尖锐边界问题。并通过设定相应阈值,减少支持度的计算量,有效的减少模糊关联规则挖掘的时间,提高模糊关联规则挖掘效率。
最后,结合青海移动的海量历史数据,依据数据挖掘 CRISP-DM流程模型,将改进的布尔型关联规则算法和模糊关联规则算法应用到青海移动 GPRS业务数据中,从而挖掘出客户特征和移动 GPRS业务之间的关联关系。挖掘结果证明了算法的可行性与实用性,并且对移动的营销和策划人员具有积极的指导作用。