论文部分内容阅读
大数据时代,数据的价值越来越被重视,数据挖掘作为发现数据价值的工具也被广泛的应用。通过数据挖掘发现数据中所蕴含的价值成为各行各业的重要生产力。本文就是通过数据挖掘中的聚类算法根据IM软件的访问次数和使用流量对其进行细分,发现其中的规律和高价值用户群体,以进行差异性服务和营销。数据预处理作为业务和数据理解与模型建立和算法设计之间的桥梁,是数据挖掘中重要的阶段,将会直接影响到聚类的结果。在数据挖掘前,如果不能对原始数据充分理解和分析,并进行相应的处理,则可能得不到好的聚类结果。为了能够把需求和算法很好的结合,文章根据对业务和数据的理解对原始数据进行了预处理,得出最终用于聚类的数据并详尽介绍了这一过程。文章给出了两个聚类算法:K-means和基于LAS-模型的双聚类算法。根据数据的特点,首先选择了传统的K-means聚类算法对数据进行了细分并对聚类结果进行了展示和解读。在利用双聚类算法对数据进行细分时,文章根据2009年俄罗斯学者Shabalin等人提出的基于LAS-模型双聚类算法和本数据的特点,对算法和评分函数模型分别进行了改进。改进之后的算法和评分模型在数据集上有很好的表现,得到的双簇很能反映需求。对算法的改进使得搜索单个子矩阵的算法复杂度有很大的降低。对评分模型的改进不仅使得评分函数模型更能适合本数据集和很大程度上降低了算法的复杂度,最重要的是评分模型改进后可以根据数据集的特点进行参数选择,使得整个算法更加灵活。