密度聚类研究及其在电影推荐算法中的应用

来源 :西北师范大学 | 被引量 : 0次 | 上传用户:alexl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类算法是数据分析中的一项重要技术,它在各个研究领域中都有着广泛的应用。简单的来说,聚类算法就是对数据自身的属性进行分析,然后根据属性之间的相似度关系将它们划分为多个簇类,使得簇内数据对象之间的相似度关系尽可能大,簇与簇的数据对象之间相似度关系尽可能小。本文着重研究了密度聚类算法,并针对它的一些问题提出改进算法,将改进后的算法应用到电影推荐当中,不仅减少了算法的计算量,还提升了推荐性能。具体的研究内容如下:(1)针对密度聚类算法效率低下的问题,本文提出了一种基于三角不等式与密度聚类算法相结合的T-DBSCAN算法。利用三角不等式与密度聚类相结合的方法,将数据的核心点、邻域对象与未标记的数据对象构建三角形,再利用三角不等式原理对未标记的数据对象进行判断,观察其是否属于邻域对象,并进行标记。重复此步骤,直到所有的数据对象均被标记,算法结束。所提算法通过减少重复计算次数,来提高算法的效率。在人工数据集与UCI数据集上的实验结果表明,在保证了正确率与DBSCAN算法相同的情况下,缩短了计算时间。(2)针对密度聚类算法对参数依赖性大的问题,本文提出了一种基于自然最近邻居的K-平均密度聚类算法NK-DBSCAN。该算法首先利用自然最近邻居获得数据集的自然平均最近邻个数,将其看作K值(最近邻个数)。然后计算每个数据对象与第K个最近邻居的距离,并求出平均值,得到数据对象与K个最近邻居的平均距离,将其作为邻域半径Eps,将Eps代入数学期望公式得到阈值Min Pts。所提算法无需人为设置参数的值,同时还能保证算法的准确性。实验结果表明,在所提算法确定参数值的情况下,聚类结果较好。(3)本文提出NK-DBSCAN聚类与协同过滤相结合的推荐算法,该算法首先将用户数据分为多个簇类,然后在各个簇类中构建用户-评分矩阵进行协同过滤推荐,这样就减少了计算量,从而提升了推荐的效率。本文选用公用电影数据集Movie Lens进行对比实验,结果表明所提算法不仅提高了推荐效率,还解决了冷启动的问题。
其他文献
大数据时代的到来使得云服务器及其提供的服务成为研究热点,云存储由于其低成本和接近无限的数据存储空间而受到了广泛的关注。用户将数据存储在云服务器上并随时随地访问其数据的同时,也越来越注重数据的安全性和访问控制,但传统的加密方式无法为用户提供准确高效的搜索服务。基于属性的加密技术可以为用户提供一对多、细粒度的数据共享模式。但基于属性加密的密文搜索仍存在搜索关键字单一、效率较低、搜索结果不可信等问题,结
植被恢复过程中,土壤有机碳含量随凋落物数量、质量以及根系分泌物的不同而变化,在全球变化的环境下,土壤碳库的收支平衡以及土壤有机碳动态机制将面临严峻的挑战。土壤中有新鲜有机物(如葡萄糖、根系分泌物等)输入时,可能会促进或者抑制土壤中原有有机质分解的现象,则称为激发效应。本研究选择黄土丘陵区不同恢复年限的人工刺槐林(14年、20年、30年、45年)以及邻近坡耕地为研究对象,采用室内培养试验,应用13C
区块链是目前分布式系统研究中最具潜力的技术之一。区块链分为公链、私链、联盟链,联盟链具有自主可控能力且内部信息开放,可以实现链上权限分级功能。目前,商业化区块链系统要求保证自主可控能力的同时,兼具区块链去中心化、不可篡改等技术特征,联盟链非常适合这种应用场景,是商业化应用的最佳落地方案。在联盟链中,共识算法通常选用实用拜占庭容错算法(PBFT),它是由旧的拜占庭一般问题衍生而来。系统可以在恶意节点
随着云计算的迅速发展,数据的安全检索和密文共享等问题已经成为了人们关注的焦点。但是将所有密文解密后再检索的方式搜索成本极高,可搜索加密技术为云服务器提供了密文的安全检索。然而现有的基于可搜索加密的数据共享方案普遍存在着云上数据被篡改、解密权限授权困难、检索结果不可信以及密钥泄露等问题。因此本文从数据完整性、多用户场景下的访问控制和密文授权等方面展开研究。研究内容主要如下:(1)提出了电子邮件中支持
显著性检测技术和协同显著性检测技术是显著性物体检测领域的两个方面。前者是对单幅图像进行操作,后者则是针对一组协同图像组进行操作。针对RGB图像进行显著性和协同显著性检测的技术已经在图像分割、图像检索和协同分割等方面得到了广泛应用。但是当被检测的图像背景复杂、前景和背景对比度不高时,现有的检测结果会出现显著性物体检测不完整、边界不清晰的问题。随着成像设备的快速发展,RGBD图像中的深度信息在对象分割
本文使用TRU树木雷达的无损检测技术调查了陕西关中地区不同胸径古国槐的空腐现状和根系分布,旨在了解古槐的空腐规律、根系分布特征及其健康情况,为古槐的保护管理、复壮加固和安全隐患排查提供有力的理论依据。论文根据胸径共选取不同径级的古槐样树40棵,通过树木雷达扫描结果,分析了古槐的空腐现状;研究了古槐空腐与胸径、树干高度的关系以及古槐树干的空腐规律;分析了古槐根系的分布特征,以及胸径、树高、冠幅、空腐
退耕还林(草)工程是黄土高原生态系统修复重建的重要措施,具有改善土壤理化性质的功能,特别是养分可利用性的增加。氮(N)和磷(P)的可利用性不仅调节着整个陆地生物圈的植被生产力,并可通过影响植物—土壤—微生物改变生态系统的能量流动和养分循环。植物重吸收过程和土壤矿化作用为生物地球化学模型中的关键过程,对于植被的恢复和维持生态系统的稳定具有至关重要作用。基于此,本研究通过空间代替时间的方法,选择农田、
氮素是影响森林植被生长发育的重要营养元素之一,目前全球氮沉降呈上升的趋势,氮沉降在增加土壤速效氮的同时也会促进氮在植物体内的累积,最终影响森林植被的生长发育。森林更新一直以来是一个非常重要的生态学过程,影响森林自然更新的其中一个重要因素是凋落物,它对建群种幼苗生长的影响也是国际上针对森林凋落物生态功能研究的热门话题。以往关于凋落物和氮沉降的单独研究有很多,但是,在全球氮沉降大背景下,氮添加与凋落物
在全球气候变化背景下,我国黄土高原降水格局呈现出季节波动增强和极端降水事件增加趋势。降水格局变化势必会引起草地群落特征和物候期发生重要改变。目前,关于降水变化对水分限制的黄土丘陵区草地群落特征和物候期的定位观测试验研究仍然较少。基于此,本研究采用遮雨棚法模拟不同降水变化,共设置7个处理:(DP60:-60%,DP40:-40%,DP20:-20%,CK:0%,IP20:+20%,IP40:+40%
植酸盐作为一种饲料中的抗营养因子可以抑制肉仔鸡对蛋白质、矿物元素、葡萄糖、氨基酸等的吸收,从而影响肉仔鸡的生长发育。植酸酶作为一种重要的饲料添加剂,可以有效的降解家禽饲料中存在的植酸盐并起到释放出无机磷的作用,提高磷在肉仔鸡体内的吸收率,帮助肉仔鸡正常的生长和发育。但植酸酶本身作为一种蛋白极易受到外界环境中不利因素的干扰而丧失活性,限制了植酸酶的使用范围和条件。使用无毒、廉价、生物降解性好和生物相