【摘 要】
:
在信息爆炸的互联网环境中,各个领域的数据和信息呈指数增长,从这些海量无规则数据和强干扰的信息中检索出有价值的数据具有重要的研究意义。海量数据导致通用搜索引擎对专业领域上查询的信息不够准确和全面,而用户对专业领域信息的需求却在与日俱增。对于招聘行业来说,具有可以快速检索招聘信息的垂直搜索引擎至关重要,因此,本文设计并实现了一个面向招聘行业的垂直搜索引擎。本文基于Scrapy-Redis实现分布式爬虫
论文部分内容阅读
在信息爆炸的互联网环境中,各个领域的数据和信息呈指数增长,从这些海量无规则数据和强干扰的信息中检索出有价值的数据具有重要的研究意义。海量数据导致通用搜索引擎对专业领域上查询的信息不够准确和全面,而用户对专业领域信息的需求却在与日俱增。对于招聘行业来说,具有可以快速检索招聘信息的垂直搜索引擎至关重要,因此,本文设计并实现了一个面向招聘行业的垂直搜索引擎。本文基于Scrapy-Redis实现分布式爬虫来为招聘信息垂直搜索引擎提供数据支持,通过对分布式爬虫框架的二次开发来实时抓取网络招聘信息,完成了招聘信息的高效采集和结构化信息的准确抽取。在研究爬虫框架源码后,对网页抓取过程中URL去重方法进行改进,通过集成自定义的布隆过滤器解决了原爬虫框架在抓取海量网页数据时内存占用过高的问题,实现了快速抓取海量招聘信息的功能。对于垂直搜索引擎,数据的快速存取和检索非常重要,本文对数据的存储选用了非关系型数据库HBase,并借助全文检索技术来弥补HBase对非主键字段的检索或者多条件的组合查询和模糊查询等方面的的不足。利用全文搜索引擎ES(Elasticsearch)为HBase构建二级索引来将索引和数据分离,借助ES完善的检索服务来实现用户多样化的查询。同时,为了给用户提供实时的检索服务,本文利用HBase的协处理器来将前面分离的数据与索引同步更新。目前数据库中已有千万级的职位数据并还在持续增长中,存储在HBase集群上的海量职位数据还可以用于大数据分析等领域。本文结合分布式爬虫框架、非关系型数据库HBase和全文搜索框架ES设计并实现了一个招聘信息垂直搜索引擎系统,给用户提供全文检索和高级检索两种方式来满足用户的不同检索需求,并提供数据可视化分析功能来帮助用户了解当前的招聘环境,提升用户的交互体验。通过功能测试和性能测试,该垂直搜索引擎可以提供多样化的查询服务和毫秒级别的响应时间。同时,系统的集群服务保证了系统具有良好的扩展性和较高的吞吐率。
其他文献
目的:基于皮肤致敏AOP,摸索建立一种RNA水平的高通量、快速的皮肤致敏物筛选方法体系。OECD指南已收录直接多肽反应试验(DPRA)、AKE-Nrf2的荧光素酶检测方法(KeratinoSensTM)和
本文从夏热冬冷地区的地理气候特征入手,从温度、湿度、日照等方面分析了夏热冬冷地区气候对本地区住宅建筑节能设计的影响因素,从布局和外围护结构两个方面分析了夏热冬冷地区现有建筑的基本特征,阐述了夏热冬冷地区住宅建筑节能存在的主要问题,并详细论述了夏热冬冷地区外围护结构节能的常见措施。本文选取成都地区已有建筑为例,对其进行节能模拟优化计算,通过对计算结果的分析,得出外墙采用自保温空心砖加冷热桥保温隔热处
高温超导磁悬浮系统采用制冷系统冷却超导体,具有无需外部控制而可实现自稳定悬浮、节能、环保等优点,具有巨大的潜力成为一种新的轨道交通模式。制冷系统是高温超导磁悬浮系统的关键,研究不同制冷模式下高温超导磁悬浮系统的悬浮性能是高温超导磁悬浮列车在工程化应用中的关键问题。本文围绕该关键问题,采用斯特林制冷机搭建低温磁悬浮特性测试平台。使用该平台,研究了模拟车载排列方式的超导块材组合在制冷机冷却下不同温度的
语言景观是语言学家Landry和Bourhis早在1970年提出的相关理论研究概念。发展至今,语言景观国内外研究队伍逐渐壮大,研究方向更加广阔,并呈现出理论研究转向实践发展的趋势。本论文在已有研究的基础上进一步创新提出从语境补偿机制角度,研究语言景观与对外汉语教学的关系。首先,结合文献综述进行理论研究。阐明语言景观概念,发掘潜在研究价值。二语习得社会化理论提到语言习得的“社会文化转向”,注重研究二
众所周知,英语学习包括四项基本技能:听说读写。在这四项技能中,听力和阅读属于输入技能,要求学生能够理解,懂得。而口语和阅读则是输出技能,要求学生能够做到用英语去进行交流,沟通,创作。显而易见的是,输出技能要难于输入技能,而写作在这四个基本技能里也是尤其让学生头疼的一项技能。依照最新的《高中英语新课程标准》,其中对高中生英语课程的写作要求是:“内容充实,语言通顺,用词恰当,表达得体”。在每年的全国高
世界一流大学和一流学科建设是继"211工程""985工程"之后中国高等教育战线又一项体现国家意志的重大战略计划。作为一个组织及环境的整体模型,大学组织以学科为基础。建设一
奇点理论是现代数学的一个新的分支,它是众多数学学科交汇处的一门学科,其重点研究的是映射、芽、分类等问题,而次解析集的发展可以追溯到20世纪50年代,由H.Cartan、H.Whitney、F.Bruhat等人研究,提出了实解析集、半解析集以及次解析集的定义.Lipschitz几何映射是当代奇点理论中发展迅速的一门学科,这方面的研究成果是由一些研究人员证明的“tameness”定理,而函数芽的bi-
近十年电子商务迅猛发展,对我国的经济腾飞起到了强大的促进作用,带动了电子商务专业人才的需求,同时对中职学校人才培养提供了一个契机。中职学校能够满足电子商务行业对人才培养需求的层次和规模,而如何定位和培养符合这个行业对人才要求标准是一个需要研究的重大课题。基于行业运作的特征,对人才的要求更注重专业技能和实践能力。本论文就是在这一背景下,通过研究分析目前中职学校电子商务专业实训课的教学现状,提出相应的
中职商务日语专业的学生毕业后多从事“用日语进行沟通交流”为主的工作,因此对学生日语听、说能力的培养尤为重要。但是“听”的能力是“说”的能力的基础,只有先“输入”才能“输出”,因此日语听力的水平如何对中职商务日语专业的学生而言至关重要。目前,中职学生在日语听力学习上仍存在缺少学习自主性、听不懂、成绩低等问题。同时,国内关于“中职日语听力”的相关研究数据仍不够全面,可供中职日语教师听力教学的指导意见不
情景模拟教学法是指教师在教学过程中有目的地创造一种情景以引起学生的情感体验,学生借助模拟软件模拟角色或职位,然后完成技能培训过程的教学方法。情景模拟教学法与其他教学方法之所以不同,在于其模拟了真实的环境,提高了学生专业水平的同时,还能够使学生在互动学习环境中发挥主动性,提高学习积极性。中等职业学校的培养目标是培养具有综合素质的技能型人才和高素质劳动者,因此,在中等职业学校的客户关系管理课程中采取情