论文部分内容阅读
伴随着互联网的飞速发展,我们进入了一个信息海洋的时代。互联网上的信息以指数阶的速度增长,那么如何让在如此多的数据中提炼出用户感兴趣的数据成为了一个很有研究意义的问题。在目前的电子商务系统中,由于商品数量和用户数量都非常巨大,如何把商品推荐给合适的用户,如何挖掘用户的潜在购买需求,增加网站的流量和营业额,这些问题通过个性化推荐系统都能得到良好的解决,个性化推荐系统是用户和信息之间的纽带。然而,在分析了当前电子商务系统中推荐模型所遇到的主要问题之后,发现电子商务在拥有海量的对象(商品和用户)的同时,用户行为数据却过于稀疏。由此主要造成了两个问题:一、推荐算法和推荐模型的可用性无法得到保障;二、出现了马太效应,导致了受益群体过于集中。本文正是针对上述在电子商务中出现的问题基于文本挖掘和产品知识库,提出了一种商品聚类算法,即相似产品集算法。该算法运用文本挖掘和行为定向技术聚合相似产品。通过对全部产品的分析,构建介于产品和叶子类目之间的相似集合层。该相似集合层的粒度能根据业务需求做灵活的调整。在解决用户行为数据稀疏的同时,该算法还能为比价分析、价格指导以及重复产品的诊断提供一些实现方案。本文的主要内容有:1)分析了当前电子商务环境下推荐系统所面临的用户行为数据稀疏的问题以及现阶段的一些解决方案。2)针对以上问题提出了基于文本挖掘的相似产品集算法,该算法基于文本挖掘,通过对描述商品的词进行了若干处理之后(如单复数转换,去掉脏词等),利用频繁挖掘算法如Apriori,FP-Growth等算法进行相似产品的划分,聚合相似的产品,该算法能在一定程度上缓解用户行为数据的稀疏性。3)对提出的相似产品集算法进行分析和实验,得出实验数据。4)针对比价分析,发布商品价格指导,和诊断重复商品的发布和分析商品的热门程度等问题,利用相似产品集算法给出了若干可行的方案,并通过实验得出结论。