【摘 要】
:
随着数字化在各行业推进,数据以前所未有的速度增加,超过系统处理规模的信息正引发数据过载。基于一定数据规模量的推荐系统正成为解决数据过载的重要手段。高校图书馆为全校师生提供图书借阅、文献检索、科研支持等服务,是师生的“第二课堂”。但随着馆藏书籍不断扩充出现以下问题:(1)用户难以发现自己的潜在兴趣而进行拓展性借阅;(2)用户图书搜索成本变高,可能降低借阅积极性;(3)疫情期间,传统的线下图书推荐活动
论文部分内容阅读
随着数字化在各行业推进,数据以前所未有的速度增加,超过系统处理规模的信息正引发数据过载。基于一定数据规模量的推荐系统正成为解决数据过载的重要手段。高校图书馆为全校师生提供图书借阅、文献检索、科研支持等服务,是师生的“第二课堂”。但随着馆藏书籍不断扩充出现以下问题:(1)用户难以发现自己的潜在兴趣而进行拓展性借阅;(2)用户图书搜索成本变高,可能降低借阅积极性;(3)疫情期间,传统的线下图书推荐活动成本变高;(4)用户难以通过传统的图书检索充分利用现有馆藏资源。现有的图书馆数据处理架构,由于部分功能缺失和处理数据量规模的限制难以解决上述问题。而图书推荐系统,能够根据用户个人信息、历史行为信息、图书信息等挖掘出用户喜好,满足用户个性化借阅需求。但目前高校图书推荐系统大多存在不足:(1)多数研究停留在传统协同过滤算法;(2)忽略中文特征,数据特征利用低下;(3)推荐应用系统性能与拓展性有限。基于以上不足,本文以XX大学图书馆为例,通过分析研究场景需求、结合工业界现有解决方案、综合考虑场景可用数据,采用Spark大数据处理框架和Hadoop分布式存储框架,提出并实现了基于交替最小二乘法(ALS)的协同过滤+中文词嵌入DeepFM(Collaborative filtering-Chinese Word2vec-DeepFM,简称CCWD)混合模型的图书推荐系统,主要工作如下:(1)数据获取及预处理。处理图书馆业务数据:数据标准化、删除噪声数据、删除关键信息缺失值、填充非关键信息缺失值。探索性分析业务表字段,挑选合适字段作为模型特征。(2)构建CCWD混合模型。混合模型融合不同模型召回率高、耗时低的各自优点,分为召回和排序阶段:召回阶段使用基于ALS协同过滤,排序阶段使用改进DeepFM进一步提高推荐准确率。其中改进DeepFM的步骤为:以中文图书名为基础,先将书名使用Jieba分词,后用Word2vec将分词结果进行词向量表达,再将词向量嵌入至DeepFM。CCWD混合模型比基准算法平均绝对误差(MAE)、均方根误差(RMSE)分别至少下降1.3个百分点、5.4个百分点;选取Top N=10时,推荐指标召回率(Recall)、命中率(Hit)分别至少提高9.1个百分点、6.2个百分点。(3)实现混合图书推荐系统。主要包括Hadoop分布式存储、Sqoop同步Mysql至Hive、Spark读取Hive数据并进行预处理、模型实现,产生推荐结果存储至Redis,最后将结果展现于图书检索页面。经过系统测试,在并发访问量达到200时,推荐功能保持100%可用。
其他文献
目的 对常规检验与生化检验在糖尿病疾病诊断中的临床运用效果进行对比。方法 回顾性选取日照市中医医院于2020年10月—2021年9月收治的74例糖尿病患者为研究对象,分别采取常规检验(常规组)、生化检验(生化组),将检查结果同金标准相比较,并对两组的疾病诊断准确率、血糖、血脂等情况进行观察与比较。结果 常规组诊断准确率为78.38%、灵敏度为94.55%、特异度为31.58%;生化组诊断准确率为9
祝勇,当代散文作家,散文革新运动的倡导者和实践者,90年代末兴起的“新散文”现象的理论建设者和实践者之一。登上文坛三十年以来,他一直坚持着散文这一阵地。他认为散文发展到现在,面临着一场不可回避的革命。体制阻碍散文的发展,打破传统散文、体制散文僵化的观念和写作是祝勇散文的核心理论,在此基础上,他坚持散文的个体性、提倡个性化写作、表现作品的个性化,以此实现他“回归写作本身、激发散文活力”的目的。在90
受宏观经济刺激政策的影响,我国部分周期性行业杠杆率过高。从企业角度来讲,高杠杆率使企业的偿债风险和压力增加;从宏观来看,导致社会经济系统性风险提高。因此,2015年,我国正式提出了供给侧结构性改革,下达了“三去一降一补”等经济方面的工作安排,将去杠杆作为此次改革的首要任务。企业也开始采取多种方式去杠杆,以降低风险。钢铁行业是典型的周期性行业,杠杆率普遍偏高,财务风险较大,钢企开始通过去杠杆的方式降
<正>张晓风在中国台湾文坛具有举足轻重的地位,在散文、戏剧、小说等文学领域均有涉足。在这之中,她的散文创作是最为出色的,被中国台湾文学界评为“当代十大散文家之一”。纵观张晓风的散文创作,余光中称赞她为中国台湾第三代散文家中腕挟风雷的一支淋漓健笔,认为其创作“扬之有豪气,抑之有秀气”。在我看来,张晓风的创作属于一种灵性写作。所谓灵性创作,就是作家总能以充满灵动的双眼捕捉到万物的奇妙之处,用极富灵气的
<正>当今社会,人才竞争是核心竞争,人才是县域经济发展的主导力量、根本力量和重要支撑,他们在很大程度上影响或决定着县域经济发展的方向、速度、潜力、市场竞争力和经济效益。河南省杞县在发展区域经济过程中,从特色产业的选择、传统产业的改造升级到市场开拓等一系列问题都离不开人才。一、杞县人才引进和培养现状(一)事业单位人才引进工作杞县人才引进工作以县委组织部门牵头为主,人社和编制部门配合落实。最近几年,杞
<正>在宁夏,和小说、诗歌相比,散文写作还没有形成较大的规模和影响,甚至很多写作者还处在被遮蔽的状态。近几年比较突出的散文写作者是程耀东、田鑫、刘汉斌等几位,他们的作品在题材、风格上具有一定的稳定性。比如程耀东和田鑫总是在不断回望着不知所踪的乡村,几十年前的人、事、物虽然早已如同褪色昏黄黯淡的图画,但之于他们却似乎有着岁月熬煮之后难以化开的浓俨的情绪;刘汉斌则另辟蹊径,看到了苍茫的西海固土地上带着
萧乾是20世纪"京派"作家的代表之一,他的散文创作主要集中于20世纪30年代和八九十年代两个时期:前期的散文写作整体上呈现出"忧郁"的气质,和作家在传统与现代文化影响下形成的审美心态共同构成萧乾前期散文写作的标志;后期的散文写作将关注点转移到中西文化差异对文学的影响,凸显出作家民族本位的积极乐观的创作立场,由此完成其散文创作风格上的转型。从前期到后期,萧乾的散文创作中有一点始终未曾改变,就是他对自
<正>以多种文体研究学术、阐释思想和表达审美是汉语写作的一个传统。所谓文史哲不分,其实也可以理解为写作的跨界和跨学科。在广义的文章范围内我们通常所说的写文章,包括写诗、写散文、写小说。新文学之后,文学从文章中分离出来,但新文学作家仍然在文章传统之中,他们仍然在写文章,左手论文右手散文,或左手散文右手小说,抑或左手散文右手诗。这是新文化的传统。我们熟悉的学科体制内的训练,粗糙地说是删剪与专业无关的枝