论文部分内容阅读
席卷全球的互联网浪潮,不仅加速了各种信息产业的发展,更是进一步拓展了用户获取和传播信息的途径。从某种意义上讲,信息掌握的越多,对某些事情就越有把握,但我们必须明白的是信息一旦过多,就会变成“信息洪水”,寻找重要的信息就会如大海捞针般痛苦。大量的信息涌入让决策者深陷“信息海洋”之中,急需要一种技术来帮助决策者快速做出决策,实现个人需求。个性化推荐技术的出现很好的填补了这一空白,作为人工智能领域的重要应用之一,通过对用户历史行为的多方面分析,综合提升用户获取有效信息的效率,将人们从繁杂的大数据中解放了出来。虽然个性化推荐技术迅猛发展并取得了系列重要成果,但伴随互联网用户规模不断增加、市场产品等各类信息持续增长,数据稀疏、数据质量参差不齐以及用户多兴趣难以精准刻画等问题仍然突出。文章着重从以上问题出发,深入研究如何进一步提高推荐模型的精度,将理论与实际相结合,努力探索其实际应用价值。本文从提高相似度计算精度着手,针对数据质量,用户评分行为以及用户多兴趣刻画问题展开深入研究。文章以用户多兴趣偏好为导向,全方面刻画用户的多种兴趣倾向,并就数据质量问题展开研究,在一定程度上,对低质量用户进行惩罚,提出了一种基于用户评分惩罚因子的多兴趣偏好模型。主要的研究内容如下:1)深入挖掘用户-项目行为矩阵中的有效信息,提取用户有过正反馈倾向的项目,完成用户多兴趣偏好行为矩阵的构建,进一步计算项目属性偏好相似度,从而实现对用户多属性倾向的一致性行为进行更细致的刻画。2)通过对杰卡德相似度存在的缺陷进行综合分析,基于其存在的缺点融合用户兴趣倾向一致性行为特征和用户评分惩罚因子,对杰卡德相似度进行了一定的改进。改进算法综合考虑了用户评分行为的复杂性对推荐精度的影响以及用户评分偏好衡量不准确的问题。3)考虑到在对用户多兴趣偏好进行刻画时,用户间兴趣重合度以及项目的某些属性对用户兴趣点区分的影响程度大小不一致问题对用户多属性偏好相似度精度的影响,本文提出融入属性影响因子的偏好修正系数对多属性偏好相似度算法进行改进。本文主要以MAE评测指标为准则,设计多组实验,对文章提出的算法模型进行核验。文章选择的实验对象是Movie-Lens 100k公开数据集,该数据集包含943个用户对1682部电影的100000条评价。通过综合分析实验,证实了本文提出的算法模型的有效性和稳定性,有效的解决了因用户评分质量不高导致的用户兴趣倾向模糊化及用户多兴趣偏好刻画不精准的问题。