【摘 要】
:
随着大数据时代的来临,信息呈爆炸式增长,如何从如此庞大的信息中获取价值成为当前互联网时代的一大挑战,个性化推荐系统应运而生。它主要是根据用户的信息和历史购买记录等数据来进行推荐,随着电子商务的发展逐渐流行起来。虽然现在个性化推荐技术越来越成熟,但是仍然存在很多瓶颈,如数据的稀疏性问题和冷启动问题。本文将从解决数据的稀疏性问题出发,通过采用GRNN填充用户评分矩阵,提高推荐系统的性能。本文主要提出了
论文部分内容阅读
随着大数据时代的来临,信息呈爆炸式增长,如何从如此庞大的信息中获取价值成为当前互联网时代的一大挑战,个性化推荐系统应运而生。它主要是根据用户的信息和历史购买记录等数据来进行推荐,随着电子商务的发展逐渐流行起来。虽然现在个性化推荐技术越来越成熟,但是仍然存在很多瓶颈,如数据的稀疏性问题和冷启动问题。本文将从解决数据的稀疏性问题出发,通过采用GRNN填充用户评分矩阵,提高推荐系统的性能。本文主要提出了两种方法来提高推荐系统的准确性:1)传统协同过滤推荐算法中存在矩阵稀疏性问题,会导致推荐系统在寻找用户邻居节点的时候,因为两个用户共同评分的物品数量过少导致相似度计算不准确。本文采用GRNN对用户评分矩阵进行预填充,通过对填充后的矩阵来计算用户之间的相似度。因为填充后的矩阵用户共同评价过的数量增加,相似度也会更准确。GRNN相比于传统的神经网络,预算速度比较快,因为它只有四层网络结构,另外它不需要不断的训练神经网络的权重与偏置,只需要训练一个光滑因子。本文采用遗传算法来寻找GRNN的光滑因子,遗传算法是模拟达尔文生物进化论的自然选择和遗传学机理的生物进化过程的计算模型,是一种通过模拟自然进化过程搜索最优解的方法。通过GRNN来对用户评分矩阵进行填充后,用户共同评价过的物品数量增加,用户之间相似度的计算也会更加准确,推荐系统在寻找相似用户的时候,用户的邻居就越可靠。2)传统方法中一般使用两个用户之间的距离来衡量相似度,本文采用一种改进的信息熵算法计算相似度,但是信息熵只考虑了评分差出现的概率,而没有考虑评分差距大小的影响,因此本文加入评分差来改进相似度。另外,如果两个用户共同评价过的物品数量越多,那么这两个用户越相似,所以本文加入Jaccard距离来对相似度进行修正。
其他文献
教育部明确提出体育中考要逐年增加分值,达到与语数外同分值的水平,同时针对体育素养的评价和记分等升学评价体系进行深入研究推进。为响应教育部号召,多地开始付诸实际行动,或着手规划当地的体育教育政策。国家对青少年体质健康状况及学校体育的重视,从而进一步推动体育中考的发展。贵阳市在2016年开始启动体育中考改革工作,在2018年两次公开向社会征求意见,通过多次系统内部研讨论证会和中考改革工作专题会议,于2
异构信息网络HIN由于其丰富的语义信息在推荐任务中得到广泛应用。但是,传统的HIN推荐忽略了元路径Meta-path的属性信息,以及不同对象之间的相互影响。如何充分利用Meta-path信息以提升HIN推荐性能成为当前HIN推荐发展的关键难题。本文主要考虑一种特殊的HIN二分网络BN,并构建和实现Top-N推荐。为了更全面地获取用户的偏好信息,本文同时考虑用户-对象的显式和隐式反馈信息以准确挖掘潜
光波在透过毛玻璃、云雾、烟尘以及生物组织等散射介质时,由于散射介质内部折射率的分布不均匀,光波在其内部传输时会发生强散射。然而传统的直接成像技术大多依赖于未被散射的弹道光子,无法解决透过散射介质进行光学成像的问题。此外,现有的散射成像技术比如散斑相关、浴帘效应、光学传输矩阵、波前调制等在透过介质成像时,存在分辨率低、视场和带宽受限等不足。编码孔径相关全息技术是2016年提出的一种新的非相干全息技术
《法苑珠林》是我国现存的篇幅最大、最重要的佛教类书,其中不仅引用大量的佛教经典,还汲取了大量儒道经典以及史书杂记等,而且它所征引的文献时代跨越也较大,主要是从汉代到初唐时期。故《法苑珠林》中存在着非常多的语料,能够为汉语词汇学以及文字学的研究带来很大的帮助。另一方面,《法苑珠林》作为类书,版本繁多,这就造成了大量的异文现象,很多都值得去深入。论文通过对《法苑珠林》中繁复的异文现象进行考察研究,以中
在行人检测中,检测精度不够高和NMS阈值设定困难是要解决的问题。对于检测精度不够高的问题,目前有很多主流的目标检测网络试图改善它,如RCNN系列,SSD系列,YOLO系列等,虽然随着网络结构的改进,目标的检测精度不断提升,但最后的检测精度仍然有很大上升空间。在另一种思路中,后期处理也能改善目标检测精度的问题,如NMS算法、Soft-NMS算法等,然而NMS算法中易出现阈值设定困难问题,如有两个物体
本文以高中生优秀议论文语篇为研究对象,运用语篇学、语用学等相关理论,采用统计分析、描写与解释相结合等方法,对高中生优秀议论文的言语交际结构、语篇结构、修辞特点及衔接手段等进行了考察,这既能够丰富汉语语篇学的研究内容,为其发掘新的研究对象,又有助于把握优秀议论文语篇建构的一些重要元素,为高中议论文写作提供一定的参考。本文共分为四章,具体内容如下:第一章绪论部分主要阐述了本文的选题缘由、研究内容及意义
集成电路是信息技术的核心,在社会经济发展和国家安全领域都扮演着至关重要的角色。在经济全球化的驱动下,为了加快集成电路开发并降低最终成本,大多数公司通常将芯片掩膜生产与制造外包给第三方代工厂,导致供应链无法得到完全控制。攻击者可通过硬件木马的植入实现机密信息窃取、电路功能篡改等目的。因此,开展硬件木马检测技术研究对提高集成电路自主可控、自主可信和保障我国各类信息系统安全具有重要意义。本文课题来源于9
近年来,陕西省信息化建设进入全面深化应用阶段,为了响应陕西省信息化规划的要求,需要对政府投资的网络安全和信息化项目(简称“网信项目”)进行统一的生命周期管理和绩效评估,进而规范网信项目管理流程。对于申报的的网信项目,其完整的生命周期一共包括七个阶段,分别是项目申报、项目预评估、项目立项、项目实施、项目验收、项目跟踪检查、项目绩效评估。本文主要研究如何解决网信项目预评估阶段的决策问题。项目预评估是项
巴金作为20世纪最伟大的文学家之一,其小说方面的成就尤为引人注目。从《憩园》中的豪宅大院到《寒夜》中的小门小户,探讨一个共同的主题,即人类悲剧的自我根源。本文以巴金的两部具有代表性的小说《寒夜》和《憩园》作为研究对象,采用语料库研究方法,总结与归纳巴金作品的语言特征,将定量与定性相结合,分析语言累积性特征背后的原因。巴金的研究较多,《寒夜》和《憩园》也有侧重文学角度的研究;语料库的适用领域很广,但