论文部分内容阅读
协同过滤算法是目前应用最广泛、最成功的推荐算法之一,通过分析用户或项目特征计算相似度,生成最近邻集合,最后预测对未知项目的评分生成推荐结果。用户或项目特征在协同过滤算法中是至关重要的,其区分度和稀疏性会直接影响算法的预测准确度。无论是传统协同过滤算法还是改进的协同过滤算法,二者都是将评分数据作为用户或项目的特征,因此就有两个方面的问题需要进一步探索和优化:(1)用户或项目特征的区分度不高。评分数据在很大程度上受到用户个性化偏好、行为习惯等不可度量因素的影响,对于不同的用户来说,相同评分会代表不同偏好,而不同评分却可能代表相同的偏好。因此,将评分数据作为用户或项目特征就会存在特征区分度不高的问题。为了得到区分度更高的特征,研究者们会使用不同的方法,例如:基于内容的方法引入各种用户或项目特征、引入人口统计特征或结合自然语言处理技术等。(2)用户或项目特征具有高稀疏性。随着互联网用户规模的急速扩大和电子商务的普及,用户评分的项目通常只占全部项目的很少一部分,评分数据极度稀疏。此时,将评分数据作为用户或项目特征就会存在特征稀疏度高的问题。为了缓解稀疏性问题带来的影响,研究者们创新出了多种控制填补技术、降维技术和对稀疏性不敏感的相似度计算方法等。本文从特征工程的角度出发,针对由于特征区分度不高和稀疏性所导致预测准确度降低的问题,从如下两方面展开研究:(1)针对用户特征区分度低的问题,提出融合归因理论特征的协同过滤算法(AF-CF,Collaborative filtering based on attribution features)。归因理论属于社会心理学的范畴,通过分析一致性、区别性、一贯性、正负偏好等区分度很高的用户特征能很好的对用户行为进行归因分析,即推理用户行为的原因。因此,AF-CF算法为了得到区分度高的特征,使用统计方法提取归因理论中的三种特征:一致性、区别性、正负偏好。将用户评分行为归因于用户偏好,线性处理这三种特征得到用户项目偏好。计算偏好相似度与评分相似度,为兼顾两种相似度的优点,对相似度进行融合,最后进行评分预测。为了验证工作的有效性,文中首先对相似度融合参数进行调优,得到最优的参数:??(28)(28)、6.01.0。然后,在最优的融合参数下,与传统协同过滤算法的预测准确度进行对比,以MAE为评价指标,其值下降了1.5%左右,即算法的预测准确度提升了1.5%。最后,与最新的三种最新的协同过滤改进算法进行对比,算法的MAE值下降了4%-5%。(2)为了降低稀疏性对协同过滤算法预测准确度的影响,同时兼顾提取具有高区分度的特征,提出基于标注映射的协同过滤算法(LM-CF,Collaborative filtering based on label and map)。标注映射是文中提出的一种特征提取方法,标注是为了生成原始数据的类别信息,映射是将原始数据按照标注转换成为新特征。根据标注的方法不同,文中对原始评分数据分别采用聚类标注映射和自标注映射方法,提取出数据维度低和区分度高的新特征。不同于已有的特征提取方法,标注映射提取的是由集合所组成的新特征。以新特征为数据,进行基于项目的评分预测,其中相似度计算使用线性Jaccard方法,通过对特征的细粒度划分,能更好的计算项目相似度。在通用数据集Movie lens、Yahoo!R4、Film Trust上进行实验,以MAE为评估标准,验证工作的有效性。首先,分析聚类标注和自标注的各自适用性,聚类标注适用于大数据集,对数据格式没有要求,自标注适用于小数据集,对数据格式有严格要求。最后,通过与四个最新算法的MAE值对比,证明工作(2)要优于对比算法,MAE值下降了2%-12%。