【摘 要】
:
近年来随着互联网的普及,“流媒体”时代到来,推荐系统技术备受各大互联网公司的广泛关注和研究。特别是被抖音、快手、instagram以及Netflix等这些大公司或App所应用,每天不断的推送“短视频”或资讯给各类不同的用户。然而面临互联网每天产生的海量数据,如何有效且优质的推送信息是各大公司面临的一个重要问题,同时也是无数研究者的热门研究课题。在众多推荐系统中,矩阵分解是推荐系统中一种广泛使用的协
论文部分内容阅读
近年来随着互联网的普及,“流媒体”时代到来,推荐系统技术备受各大互联网公司的广泛关注和研究。特别是被抖音、快手、instagram以及Netflix等这些大公司或App所应用,每天不断的推送“短视频”或资讯给各类不同的用户。然而面临互联网每天产生的海量数据,如何有效且优质的推送信息是各大公司面临的一个重要问题,同时也是无数研究者的热门研究课题。在众多推荐系统中,矩阵分解是推荐系统中一种广泛使用的协同过滤方法之一,其思想和数学原理简单易操作,受到广大研究者的青睐。但是,现有研究大都假设数据是完全观测的、没有缺失的情况。在实际应用中,人们常常会遇到数据缺失的情况。在类似Movie Lens电影评分的公开数据集中,数据缺失有时高达95%以上,若不考虑缺失数据的有关信息,事必导致推荐无效。尽管近年来这一问题引起了很多专家学者的广泛关注,但仍存在处理缺失数据需要假设机制,且模型解释性说服力欠佳等问题。因此,为了解决这些问题,本论文从矩阵分解的角度,利用神经网络自编码器提取item特征信息和user特征信息的方式提出了利用特征信息边学习边插补的方法。本文假设线性模型的方法更加简单直接且高效,同时边学习边插补的方法效率和解释性良好,本论文的主要创新工作包括:1.在推荐系统建模中考虑数据缺失问题对模型既有实际意义也提高了推荐精确性。2.利用item和user特征信息对潜变量进行边学习边插补,缓解了数据缺失对推荐系统效果的影响,同时推荐结果可解释性得到了提高。3.本文对不同缺失率下模型表现能力进行了模拟,论证了不同缺失率对模型的影响效果。得到了如下三点重要结论:1.考虑缺失数据对提高模型准确性具有一定帮助,且不考虑缺失数据问题即不符合实际推荐场景也无利于模型效果提升;2.使用item和user自身的信息进行特征提取插补潜变量具有良好的解释性;3.通过模拟研究可以发现不同缺失率对模型效果具有显著影响,这在以后的建模中具有指导意义。
其他文献
随摄像设备在智能手机端的普及与应用,数字图像已成为传播个人信息的重要媒介之一,数字图像具有方便快捷、内容易理解等特点,比起书面文字更容易让人们接受,因此被广泛运用在各个领域中。与此同时,为满足人们为数字图像添加自己想要表达的内容,各种功能强大的图像编辑软件应运而生,对图像的编辑使得图像原本的内容受到曲解,变成伪造图像。而这些伪造图像一旦在互联网以及社交媒体中传播,将会给人们带来错误的信息,对客观世
随着国家乡村振兴战略的逐步深入,乡村文化充分发挥了日益巨大的社会功能,并逐渐成为乡村思想政治教育的重要载体。只有通过文化建设加强思想政治教育,落实新的发展观,激发乡村发展的内生动力,才能更好更快地推进乡村振兴。山西长治振兴村作为“全国乡村振兴示范村”,在长期社会发展中创造出了独具特色的乡村文化,即“三色”文化:以“根”、“孝”为核心的古色文化,以“听党话、跟党走”为核心的红色文化,以“生态保护、绿
白酒作为中国特有产业之一,其不仅在我国具有悠久的历史和独特的民族文化内涵,也为推动国民经济做出了巨大贡献。研究影响白酒销售量的因素,能够帮助我们更好的把握白酒市场风向,及时调整销售战略。首先,在白酒销售量的影响因素分析中,由于数据存在重复测量、交叉测量等原因,自变量之间存在高度相关,随机误差项不满足零均值同方差等假设,传统估计方法显得捉襟见肘。为解决此问题,本文采用广义矩估计方法对模型参数进行估计
机器学习模型的有效应用主要由数据、算法以及算力三个部分构成,眼下该类模型的研究热点为对机器学习算法部分进行改进。但是在现实应用领域中,主要制约着机器学习预测效果的因素是数据质量,特别是数据量少、数据类别多的情况下,数据的规模和质量将无法与算法的要求相匹配。因此,针对数据量小、类别多所导致的XGBoost模型训练和预测效果较差的问题,目前常用的方法有:在类别不均衡的样本中采取过采样或欠采样的方式;在
近年来,随着我国社会组织结构和精神结构都出现了现象级的突破和改变,大家对于精神文化产品的需求逐渐提高,文化消费就越来越受到重视。文化消费本质上没有脱离经济活动的范畴,主要是指个人、机构、团体甚至国家通过个人、社会、网络等多种途径,购买文化产品或者相应服务(包括实物形式或者其他形式)开展消费的活动。与传统意义上的消费不同,文化消费主要集中于精神文化类方面。消费者通过对文化资源的购买、学习、欣赏和理解
本研究基于全国31省市2003—2016年人均国内生产总值、第二产业增加值占比、城镇化、进出口量、人力资本、财政分权等18个涵盖经济三大产业,政法制度、科技投入的数据,分析经济政策因素对各省市环境影响程度。论文首先建立基于不同惩罚函数下的支持向量机(Support Vector Machine,SVM)二分类与多分类模型,考虑的惩罚函数包括:SCAD、弹性网络、弹性SCAD惩罚函数,根据不同模型下
近年来,随着人工智能理论与技术的迅猛发展,以深度神经网络为代表的深度学习方法受到了极大的关注,取得了长足的进步。其中的代表之一,在医学图像智能识别和辅助诊断领域,由全卷积网络发展而来的U-net网络发挥了重要作用,成为医学图像识别与分割的最基础和重要的工具之一。目前,医学图像领域所使用的深度神经网络,包括U-net在内,采用的激活函数基本都默认是Re LU。而激活函数作为神经网络中重要的组成部分,
如今社会的发展离不开人工智能及各种高精尖芯片的开发。作为国家的软实力,精细图案的制造转移是不可缺少的技术工艺。光刻便是实现精细图案化的有力手段。在光刻过程中,光刻胶是微电子技术微细图形加工中必不可少的材料之一。虽然我国在这一方面有着巨大的市场需求,但就高端市场而言,我国自主生产力较低,每年有70%以上的光刻胶来源于进口市场,且在一些设备上我们受到了进口限制,所以现在急需一种简便、普适的光刻图案化方
咖啡在发达国家早已形成成熟的消费者市场,在国内则刚刚作为一种文化符号开始兴起,咖啡产业在国内外都有巨大的市场潜力。云南咖啡品质优良、风味醇香,已成为众多龙头咖啡品牌的咖啡豆原料来源。由于市场垄断和云南咖啡自身营销力度不足等原因,国人却鲜少了解到云南盛产优质咖啡且云南有众多优质咖啡品牌。云南咖啡有着品质优良及价格亲民等优势,大力推行云南咖啡不仅能带动该省的经济发展,也可以对外资企业在咖啡行业长期垄断
《泰晤士报》作为英国第一大报,具有较大的国际影响力,它刊登了一系列国际新能源发展动态的相关报道,构建了独特及持续性的新能源话语。自建“《泰晤士报》新能源报道语料库”(2002—2021年),采用语料库辅助的批评话语分析理论框架,通过主题词、搭配词、索引行分析新能源话语的特性和倾向性:英国全面致力于新能源发展,新能源的相关报导持续增长;传统能源逐渐向新能源转型,财经是影响新能源发展的主要因素;新能源