论文部分内容阅读
随着互联网的飞速发展,在各个领域都产生了大量的数据,特别是在电子商务领域中产生了大规模混合属性的用户信息数据。如何在这些大规模的混合属性数据中挖掘出有价值的知识和规律,成为数据挖掘领域的研究的热点之一。而聚类是数据挖掘中一种重要的技术,通过寻找数据间的相似性对数据进行分类,发现其中隐含有用的信息和知识。当今用户角色在信息时代的作用有了很大提升,因此在海量的数据信息中找到和用户相关的、用户感兴趣的信息是非常具有挑战性的任务。本文在研究混合数据聚类时,将用户兴趣信息引入数据处理中,能够使得数据的聚类结果有助于信息的推荐与用户的行为决策。本文的主要内容包括以下三个方面:(1)针对信息时代中用户角色越来越重要的情形,在聚类分析中,引入用户兴趣信息,基于用户兴趣域和“数据-用户兴趣域”隶属度的概念,提出了基于用户兴趣混合数据聚类标签UIMCL算法。该算法能有效的利用小规模的用户兴趣信息对大规模的混合数据进行聚类标签处理。(2)在对混合数据聚类处理中,为了克服以往数据标签算法只能为拟标记数据指派一个类标签的局限性,通过调节UIMCL算法中的聚类标签控制阀值,能够实现对数据样本的多标签处理。通过多标签聚类得到的结果可应用于电子商务的推荐服务中和提高用户的行为决策。(3)在混合数据聚类距离度量中,引入用户兴趣信息,修改距离的度量计算方式。在不同的聚类算法中引入兴趣距离度量,能够与原算法取得一样的聚类效果。而且基于用户兴趣的聚类距离度量能够实现数据的降维,同时聚类结果更符合用户兴趣的关注。针对混合数据的聚类处理,本文的研究成果为如何展开有效的利用用户兴趣信息对数据进行分析与处理提供了参考,进一步扩展了聚类分析技术在实际领域的应用前景。