基于数据偏差消除的文献主题词推荐应用研究

被引量 : 0次 | 上传用户:myweiyong168
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着推荐系统在互联网应用中得到了广泛的关注,越来越多的学者尝试在更多的领域探索与单类协同过滤推荐算法有效结合的方法。近年来,文献服务和学术交流等领域的推荐服务逐渐引起关注,如文献资源推荐、学者推荐、主题词推荐等。从学者行为角度进行文献主题词推荐服务的数据偏差研究也成为一个研究点。数据偏差问题会对面向学者和文献的主题词推荐服务带来很多不利影响,如选择偏差会使学者在文献中只对海量主题词中的极少部分作出选择和使用,导致非常明显的数据稀疏问题,文献缺乏足够数量表达学者偏好的主题词;一致性偏差会使学者在写作学术论文时受到近期主要研究主题的影响,在文中对一些特定主题词产生异于自身偏好和该主题词对文献实际重要程度的使用频率。本研究主要针对主题词推荐领域中的这两种常见的数据偏差问题做出如下工作:一是为了应对选择偏差问题,本研究提出了一种隐式矩阵分解模型,同时结合文献丰富度和主题词流行度进行非均匀加权,挖掘出文献和主题词之间的词项相关性,并借此识别单类隐式信息中所包含的正样本和负样本;在区分出正负样本的基础上,针对正负样本分别提出两种主题词权值预测方法,分别为融合偏好系数的自编码器填充模型和零值填充模型。实验证明这两种方法分别提高了预测主题词权值和识别高权值主题词这两种推荐场景下的推荐效果。二是为了应对一致性偏差问题,本研究提出了一种融合一致性偏差消除和文献个性化偏好的推荐模型。一方面构造去偏模型,通过隐式权值惩罚的方式,在数据层面消除了一致性偏差带来的负面影响;另一方面对显式权值进行去一致性偏差操作,并结合基于神经网络的矩阵分解算法挖掘出文献对主题词的个性化偏好特征,最后将文献个性化偏好特征融入去偏模型中。实验证明本研究提出的方法能有效消除一致性偏差的负面影响,提高了面向学者和文献的主题词推荐的准确率。实验结果显示,本文的研究方法能有效应对文献主题词推荐服务中存在的选择偏差和一致性偏差问题,显著提高不同主题词推荐场景下的推荐效果。
其他文献
学位
学位
学位
学位
聚类以无监督学习方式将无标签数据分为不同类簇,是当前数据挖掘的重要手段之一。其中,网格聚类以网格单元为处理单位,聚类时间复杂度独立于数据点的数目,在大数据集聚类方面备受青睐。然而,随着数据量的增大和数据维度的增加,网格聚类会因非空网格数量急剧增加而致聚类效率降低;此外,由于现实中的数据往往存在类簇间的交叉重叠,传统网格聚类算法使用连通性进行聚类容易将多个交叉类簇错误地聚为同一类簇,致使聚类精度降低
学位
学位
网络化控制系统作为工业领域中重要的基础设施,已深入到经济、文化、政治和社会等各个领域。在加快社会发展进程的同时,也极大提高了人类的生活和工作质量。随着网络技术的飞速发展,网络化系统结构愈发复杂多变,其应用领域也在发生着翻天覆地的变化。在网络化系统中,其数据的有效传输常常依赖于网络中的有限带宽,但是在系统趋于稳定的过程中,其传输的数据有一部分具有较高的相似性。因此,为了减少这种不必要的相似数据传输,
学位
学位
学位
虚假评论检测技术是指可以从评论数据中自动区分真实评论和虚假评论的技术。随着电子商务的快速发展,人们从线下购物逐渐转变为线上购物,并在一些社交平台分享他们对产品和服务的看法或评论。然而,一些不法商家为了利润雇佣水军在社交平台上进行欺诈评论以此来误导消费者。这种问题不仅会给消费者带来损失,还会影响电子商务平台的良性发展。尽管研究工作者已经提出大量虚假评论检测方法,但仍存在一些问题亟待解决。包括(1)现
学位