基于机器学习的个人数据平台推荐系统的研究与实现

来源 :北京工业大学 | 被引量 : 1次 | 上传用户:qq774257837
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,人们越来越多使用互联网获取新闻,购物,观看影片等。伴随网络中的数据量急速增大,推荐系统成为了解决信息过载的重要方法。与此同时,“个人数据管理平台”抓取了用户在各个平台上的信息,拥有海量数据,如何利用这些数据对用户精准推荐也恰好是推荐系统的研究领域。目前,最为广泛应用的推荐算法是协同过滤算法。然而,该算法也面临诸多问题,如相似度模型较为朴素、预测过程未考虑用户偏好模型以及当项目增加时,有潜在的性能问题。基于以上的问题,本文对相似度模型、用户偏好模型和拓展性问题进行了研究,提出了一种改进的协同过滤推荐算法,取得了如下的主要研究成果:(1)在相似度度量问题上,提出了一种新的度量模型。该模型受NLP领域中的词嵌入思想的启发,分别通过将项目的共现信息与项目的简介信息分别映射到低维的向量空间中,得到关于项目的两种向量表示方法。最后将两种表示结合起来,按权重计算相似度。在项目共现的嵌入中,提出了f-item2vec模型,该模型引入了项目评分因子,进而增大高分项目的相似度;针对项目简介信息,先分词,然后使用doc2vec的方法训练项目的向量。与现有相似度模型相比,本文提出的相似度模型不仅能捕捉到评分特征,还能捕捉共现特征和内容特征,得到的相似度结果更准确。(2)在预测评分中,引入了用户的偏好模型。本文提出了基于长短期兴趣的用户偏好模型。该模型将用户的偏好分为短期和长期两部分,分别计算短期兴趣和长期兴趣权重,最后融合生成偏好权重。在引入用户偏好模型后,当使用用户的历史数据预测当前评分时,与当前预测项目同类的项目所占的比重更大,预测结果效果也比传统方法更好。(3)提出了基于项目聚类的推荐方法解决潜在的性能问题。具体的,通过相似度模型得到项目向量后,运用聚类算法对项目进行聚类,并在预测评分时载入与待预测项目在统一聚类中的项目,在此聚类集合中找到最近邻并预测评分。该方法避免了在寻找最近邻居时读入全体项目数据,节省了时间和内存开销。
其他文献
习近平人类命运共同体思想包括时代、理论、实践三维向度。习近平人类命运共同体思想是在西方民主失灵、西方模式困境重重、西方主导的全球治理乱象丛生的背景下顺应时代潮流
在经济“新常态”下,我国经济发展面临着资源日益匮乏、环境不断恶化的巨大压力,传统高投入、高消耗、高污染、低效益的增长方式是不可取的,因此需要加快转变经济发展模式,坚持可持续发展道路。深圳作为我国的前沿城市,在经过40年经济高速发展的同时,也消耗了大量的能源,排放了大量的温室气体,存在着环境承载力透支的潜在危机。所以,推行以碳减排为核心目标的绿色发展模式成为深圳市经济转型升级的战略方向。绿色经济的发
基于Java的在线考试系统的设计与实现采用My Eclipse 6.5作为开发工具,使用MVC开发模式,框架使用了目前流行的Struts,数据库使用Oracle 10i。该系统主要有三大模块:管理员模
目的:考察维生素环糊精包合物中维生素D3的稳定性。方法:以正相高效液相色谱法测定维生素D3含量测定,薄层层析法分析分解产物。采用3000 Lx 光照、80 ℃与40 ℃, RH=76%和RH=92.
目的观察大剂量阿托伐他汀对急性脑梗死患者神经功能和生活质量的影响。方法选择医院收治的急性脑梗死患者80例,随机分为观察组和对照组,每组40例。2组均接受抗凝、抗血小板
随着当下儿童友好型城市建设的大力开展,儿童友好型公园的营建对于促进儿童福祉的提升、构建美好人居环境具有重要意义。当下,我国城市公园的儿童活动空间面临活动空间缺乏、活动设施粗放、存在安全隐患、低龄儿童互动对象单一、成人看护不便等问题;儿童友好型公园的建设缺乏对于儿童-环境两者相互关系的理论构建,理论研究不足、儿童友好型景观空间设计研究不够深入。基于这些问题,本文从风景园林的视角出发,从儿童的生理、心
出生在河北沧县一个败落官宦世家的张仲瀚,自幼求知若渴,聪颖好学。从青少年时期就投身革命,18岁加入中国共产党,后组建冀中抗日武装,历任河北民军司令员,冀中军区津南抗日自
最近几年,国外发展的曝气生物滤池是一项好氧生物处理的新型的工艺技术。新型的工艺处理技术与传统的活性污泥的处理方法相比较,曝气生物滤池具有处理效果好、工艺流程简单、
武汉三镇鼎立,龟蛇两山夹江对峙,湖泊棋布,山丘起伏。唐宋时,出现黄鹤楼,古琴台等园林实体;元末明初,相继建立出现了一些王府花园。直至晚清,传统武汉园林基本包含了依托天然