论文部分内容阅读
随着经济和互联网技术的高速发展,新闻资讯得到了快速的增长和传播,越来越多的用户使用计算机或智能手机阅读新闻而不是观看电视或购买报纸。新闻资讯的海量生成和快速传播给我们带来了丰富的信息,但同时也带来了信息过载的问题。新闻推荐系统的研究和应用可以为用户推送合适的新闻,提升阅读体验,解决新闻信息过载问题。传统的推荐技术研究着重于用户和物品之间的访问协同性,这在商品推荐、评分预测等应用领域也取得了较好的效果。然而,待推荐的新闻往往是新出版的新闻,与用户之间很难建立直接且稳定的关联,这种场景下容易出现冷物品问题。因此,新近的新闻推荐研究较常使用的方法是将基于内容的推荐作为推荐框架的重要组成部分,将待推荐新闻和已经训练好的用户偏好度模型进行对比。但基于内容的方法一般需要将新闻看成基于词袋的向量空间模型,不仅丢失了语义信息,也没有充分考虑新闻内容的一些基本特点,如体裁、类别、地区、作者等因素在用户阅读行为预测中的重要作用。同时,单纯考虑基于内容的推荐方法容易导致推荐多样性不足。此外,也很难将系列新闻报道即用户阅读新闻的上下文环境作为推荐学习的背景因素,即没有考虑新闻演化问题对用户阅读行为预测的影响。由于冷物品问题、多样性问题和新闻演化问题没有得到很好地解决,因此也影响了新闻推荐的准确性。基于以上局限,本论文提出了基于超图的新闻推荐模型,该模型有利于将新闻内容的基本属性融合在新闻推荐过程中,并容易整合基于内容和基于协同过滤的方法,以获得较好的推荐效果。本论文的主要研究工作和创新点如下:(1)提出将新闻推荐场景中的各种对象、新闻内容属性及其相互关系定义到超图模型中。超图模型擅长描述多对多的对象关系,本文对新闻推荐场景中的各种对象进行抽象,使基于超图的新闻推荐模型具备可扩展性,并定义具有普适性的超边类别,使新闻推荐可以根据应用和研究需求进行拓展。(2)针对传统新闻推荐方法所使用的聚类基于文本单一对象的局限性,本文研究适用于异构对象关系挖掘的超图聚类,提出了基于超图聚类的新闻推荐算法(HCB,Hypergraph Clustering Based news recommendation)。在对传统的新闻推荐研究中发现,基于文本聚类方法仅能对新闻关系进行挖掘,而没有直接将用户关系考虑在该过程中。本文提出了基于超图聚类的推荐框架,将新闻和用户的关系融合在超图聚类中。启发于普通图的谱聚类方法,本文提出的超图聚类方法可以挖掘用户兴趣簇,然后借助新闻选择策略给用户挑选最合适的新闻。传统基于文本聚类的推荐方法只能分析同一类型的对象,新闻文章需要转换为向量空间模型进行聚类,而HCB方法根据异构对象之间的关系进行聚类,即在聚类阶段就将用户和可能感兴趣的新闻锁定在了聚类簇中。在真实语料的实验中,HCB方法在推荐准确性、多样性和稳定性方面优于基于内容、基于协同过滤的基线方法,也略优于使用文本聚类的基线方法。(3)为了更直观地获得新闻推荐结果,融合聚类和新闻选择过程,本文研究超图排序的理论方法,提出了基于超图排序的新闻推荐算法(HRB,Hypergraph Ranking Based news recommendation)和基于二叉决策树优化的方法(HRBopt,Hypergraph Ranking Based optimized by binary decision tree)。使用超图聚类方式需要通过聚类获得聚类簇,再根据聚类簇获得候选集,但候选集往往较大,需要进一步选择。因此本研究借助超图排序模型,将新闻推荐中的各元素及其相互关系映射为矩阵元素,然后通过排序代价函数给出排序值计算方法。为了进一步消除超图排序在点和边定义阶段的主观性,本文还提出使用二叉决策树方法进一步修正选择结果。通过实验可知,使用了超图排序方法及其二叉决策树优化的方法虽然在多样化及其覆盖率指标上略差于通过超图聚类和文本聚类的相关基线方法,但在推荐准确性和排序性方面优于基线方法。(4)为了解决新闻推荐中用户阅读兴趣上下文相关的问题,本文研究了超图新闻链及其在新闻推荐中的应用,提出了基于故事链的新闻推荐(HSB,Hypergraph news Story chain Based news recommendation)。用户可能会对系列新闻报道中的缺失环节产生兴趣。本研究定义了构建新闻链的基本要素和原则,并使用超图随机游走方法构建新闻链,以新闻链作为给用户推荐新闻的候选集。实验结果表明,考虑了阅读上下文信息的基于新闻链构建的新闻推荐方法在推荐准确度指标上虽然不如融合的推荐方法,但该方法与同类基于内容的推荐方法相比,各方面的评价指标提高较大。总体而言,超图模型容易实现多异构对象关系建模、聚类和排序,本文在新闻推荐研究中借助超图模型进行定义、学习和推荐,在推荐效果上取得了较好结果,在模型上也较简洁清晰、易于扩展。