论文部分内容阅读
随着Web2.0的出现和发展,越来越多的人开始在网上表达他们对一些产品和服务的意见。用户的意见通常包括对该产品的整体评分以及一些文本评论。这些信息对于生产者和消费者来说都是非常有价值的。对于生产者来说,他们可以通过查看用户的评论来获取令用户满意的特征以及不满意的特征,进而对产品进行改进以提高商品的销售量和获取最大化的利润。对于消费者来说,在他们购买产品时,查看其他用户对该产品的评价可以帮助他们做出明智的选择。这些文本评论和评分也是形成推荐系统的基础,而推荐系统的目的在于尽可能准确的从上亿个产品中找出用户最感兴趣的产品。协同过滤是推荐系统中一种经常用到的技术。协同过滤分析用户兴趣,在用户群中找到与某用户有着相同兴趣爱好的用户,综合这些相似用户对某一信息的评价,系统能够形成对该指定用户在该信息上的兴趣爱好进行预测。目前,已经出现了很多的协同过滤算法,这些协同过滤算法大多是只利用用户对该产品的整体评分进行预测。然而,用户对产品的整体评分并不能够给我们提供足够多的详细的信息。例如,一个用户对一个产品给予了很高的评分,这预示着他对这个产品非常的喜欢和满意,但这并不代表他喜欢该产品的所有特征。同时,当用户对一个产品做出整体评价的时候,他对于该产品的不同的特征有着不同的偏好,这种偏好信息决定了用户对该产品的整体评价,并且用户在这些特征上的偏爱程度在不同的产品之间也是不一样的。为了解决这些问题,在这篇文章中,我们提出了一个整体的框架。在这个框架中,为了预测用户对一个产品的满意度,我们集成了用户在产品的各个特征上的意见信息和偏好信息。这个框架总共分为三部分,他们分别是基于特征的意见挖掘部分、基于特征的权重计算部分和评分推断部分。在意见挖掘部分中,我们利用意见挖掘技术来从用户的文本评论中提取产品的特征以及用户在各个特征上的意见,从而计算出用户在产品的各个特征上的评分。在特征权重计算部分中,我们利用用户在产品上的整体评分通过张量分解方法自动的推断出用户在不同的特征上的偏好。评分推断部分是基于用户在各个特征上的评分以及权重推断出用户在产品上的未知的评分。我们利用两个数据集对我们的方法进行评估。同时,我们也将我们的方法与几个基准方法进行了比较,实验结果显示出我们的方法要比基准方法好。这篇论文的主要贡献如下:(?) 我们提出了一个新的预测用户整体评分的协同过滤模型,该模型集成了用户在产品的特征上的偏好信息和意见信息。(?) 我们利用张量分解的方法来获取用户的特征权重,这一过程缓解了数据的稀疏性问题以及减少了模型的参数的个数。(?) 我们再次利用张量分解的方法来预测用户的整体评分,该张量是由用户的加权的特征评分以及整体评分组成的。利用这种方法的主要优势在于它获取了用户、项以及特征之间的内在联系。(?) 我们在数据集上进行实验证实了我们的方法的有效性。