论文部分内容阅读
随着推荐系统在互联网应用中得到了广泛的关注,越来越多的学者尝试在更多的领域探索与单类协同过滤推荐算法有效结合的方法。近年来,文献服务和学术交流等领域的推荐服务逐渐引起关注,如文献资源推荐、学者推荐、主题词推荐等。从学者行为角度进行文献主题词推荐服务的数据偏差研究也成为一个研究点。数据偏差问题会对面向学者和文献的主题词推荐服务带来很多不利影响,如选择偏差会使学者在文献中只对海量主题词中的极少部分作出选择和使用,导致非常明显的数据稀疏问题,文献缺乏足够数量表达学者偏好的主题词;一致性偏差会使学者在写作学术论文时受到近期主要研究主题的影响,在文中对一些特定主题词产生异于自身偏好和该主题词对文献实际重要程度的使用频率。本研究主要针对主题词推荐领域中的这两种常见的数据偏差问题做出如下工作:一是为了应对选择偏差问题,本研究提出了一种隐式矩阵分解模型,同时结合文献丰富度和主题词流行度进行非均匀加权,挖掘出文献和主题词之间的词项相关性,并借此识别单类隐式信息中所包含的正样本和负样本;在区分出正负样本的基础上,针对正负样本分别提出两种主题词权值预测方法,分别为融合偏好系数的自编码器填充模型和零值填充模型。实验证明这两种方法分别提高了预测主题词权值和识别高权值主题词这两种推荐场景下的推荐效果。二是为了应对一致性偏差问题,本研究提出了一种融合一致性偏差消除和文献个性化偏好的推荐模型。一方面构造去偏模型,通过隐式权值惩罚的方式,在数据层面消除了一致性偏差带来的负面影响;另一方面对显式权值进行去一致性偏差操作,并结合基于神经网络的矩阵分解算法挖掘出文献对主题词的个性化偏好特征,最后将文献个性化偏好特征融入去偏模型中。实验证明本研究提出的方法能有效消除一致性偏差的负面影响,提高了面向学者和文献的主题词推荐的准确率。实验结果显示,本文的研究方法能有效应对文献主题词推荐服务中存在的选择偏差和一致性偏差问题,显著提高不同主题词推荐场景下的推荐效果。