【摘 要】
:
近些年随着互联网与信息技术的快速发展,互联网的规模得到了巨大的提升,它向用户提供的信息也正在急剧增加,我们正在面对一个“大数据”的时代。在这海量的数据中,如何获取最
论文部分内容阅读
近些年随着互联网与信息技术的快速发展,互联网的规模得到了巨大的提升,它向用户提供的信息也正在急剧增加,我们正在面对一个“大数据”的时代。在这海量的数据中,如何获取最为符合个人需求的资源,是一个相当突出的问题。现有的传统搜索引擎与门户站点,能够在一定程度上缓解这一问题,然而它们已经不能完全满足需求,不能提供很好的个性化服务。在这种背景下,推荐系统作为解决“信息过载”问题的有效方案,得到了学术与工业界的广泛关注,在实际应用中也已经取得了大量成果。推荐系统主要包含的推荐方法为协同过滤推荐方法,基于关联规则推荐方法,基于内容的推荐方法,基于上下文推荐方法。关联规则是推荐系统中普遍应用的推荐方法之一,相对于协同过滤等推荐方法式一种直接推荐方法,它是从整体数据中挖掘事物间潜在的关联关系,与个人偏好无关,通过数据分析提取关联规则,为用户推荐他们可能感兴趣的信息。Apriori是关联规则提取的经典算法,该算法主要是逐层迭代过程中使用低维频繁项集生成高维频繁项集,国内外针对该算法从散列、采样、MapReduce模型等技术做了一些优化,主要从分而治之,减少数据IO等方面提高频繁项集提取效率,但是缺乏对冷、热门数据推荐平衡性的考虑和有效处理。本文对关联规则的Apriori算法频繁项集挖掘问题进行了重新评估和分析,发现该算法在数据剪枝过程中,可以利用已经统计的支持度在频繁项集组合生成候选项集时进行预剪枝,并结合Top-N推荐理论对该算法做了一些优化。为了提高个性化推荐效率和推荐质量,平衡冷门与热门数据推荐权重,本文定义了“k前项频繁项集关联规则”的概念并改进了测评指标“推荐非空率”,设计了“基于k前项频繁项集的剪枝”方法,提出了优化Apriori算法且适和不同测评标准值的k前项频繁项集挖掘算法,降低频繁项集提取的时间复杂度。理论分析比较与实验表明,k前项剪枝方法提高了频繁项集的提取效率,拥有较高的推荐非空率、F-measure和推荐准确率,有效的平衡了冷、热门数据的推荐权重。
其他文献
随着水电能源流域梯级开发的逐步推进,上游电站晚于下游电站建设的情况越来越普遍。这种梯级建设条件下,下游电站的蓄滞作用改变了河道的天然属性,当上游在建电站坝址位于下
辐射源的定位精度是无源被动定位系统重要的性能指标,如何提高定位精度也是一直被关注的重点问题。时间测量误差和卫星位置误差对定位精度将产生直接影响,对发挥其技术性能至
近年来,越来越多的专家与学者致力于数据分类方面的研究。而随着数据维数的不断增多,分类算法的计算复杂度与计算时间都会大大增加,模型参数依靠传统的经验选取或者大范围的
服用人体信息数据作为服装诸多技术发展的基础,为实现服装的标准化生产提供了理论依据。使用具有一定覆盖面的足够数量的数据可以分析各个号型对人体的适宜程度。但是这些数
马克思主义群众史观是无产阶级政党开展群众工作的重要理论依据,强调了尊重人民的主体地位和历史作用。中国共产党自成立以来,始终以群众史观为指导处理与人民群众的关系,践行群众路线,密切联系群众。现今正值我国发展战略机遇期,党内存在的脱离群众的危险严重损害了党群干群关系。面对新形势新问题,习近平同志以马克思主义群众史观为基石,继承中国共产党人的群众史观,深刻总结治国理政新经验,提出以人民为中心的发展理念。
当今能源危机和环境污染日益严重,开发新能源刻不容缓。氢能作为最有前景的新能源之一,可通过电催化水分解工艺制备。目前,这些催化过程主要依赖于铂、铱、钌等贵金属,但价格昂贵、自然界储量低等限制了其发展,因此寻找高储量、低成本且稳定的非贵金属电催化剂成为大势所趋。钴基金属硒化物是一类新兴的非贵金属电催化剂,其具有与贵金属类似的电催化性质,且储量丰富,经济性突出,是潜在的高效催化剂。本论文工作通过比例调控
在社会化媒体时代,图文并茂的表达方式成为主流,但是相比于文字,人类创作图片的过程相对复杂,因此借用已有的图片进行表达的方式受到用户欢迎。作为人们获取信息、交流、沟通
随着互联网的飞速发展,网络中产生了大量短文本,这些短文本涉及的内容与领域多元化,逐渐成为使用频繁且公认的沟通方式。电子商务评论、信息检索、智能问答系统均是海量短文
全国经济综合竞争力研究中心在京发布的《“十二五”中期中国省域经济综合竞争力发展报告》蓝皮书显示,福建省域经济综合竞争力排名全国第九,其中,可持续发展竞争力排名全国
柱状腔向列相液晶系统是将向列相液晶注于圆柱腔内所构成的液晶系统。由于液晶分子的取向及有序度易受到边界限定性效应、外场、温度等因素的影响,使得柱状液晶系统有着丰富