【摘 要】
:
招标信息是互联网信息的一部分,该类信息对企业销售人员的投标决策发挥着重要作用,快速、有效、准确获得该类信息能够提高他们的工作效率。采用通用搜索引擎获得招标信息会产
论文部分内容阅读
招标信息是互联网信息的一部分,该类信息对企业销售人员的投标决策发挥着重要作用,快速、有效、准确获得该类信息能够提高他们的工作效率。采用通用搜索引擎获得招标信息会产生返回结果多而有效信息少、返回信息不全面、存在二义性等缺点,垂直搜索引擎是面向专业领域搜索的解决方案,因此面向招标信息领域垂直搜索引擎成为企业销售人员的重要需求。搜索引擎中海量数据处理的关键问题是存储和高效计算。采用传统的集中式体系结构或分布式架构虽能解决存储和高效计算问题,但是其较高的经济成本不是任何企业都能接受的。基于Hadoop的分布式计算平台具有集群代价成本低、平台开源、强大的数据存储系统HDFS、高效的分布式编程模型MapReduce等优点,因此将Hadoop应用在垂直搜索引擎方面具有非常重要的研究价值。本文在实现整个搜索系统的过程中主要做了以下工作:(1)分析了系统的业务需求和功能需求,提出了系统的总体功能模块组成和基于Hadoop的系统整体架构。对于搜索引擎组成结构中的网络爬虫、索引器、检索器、用户接口也都提出了各子模块的组成架构。(2)研究了基于Hadoop的招标信息主题爬虫实现。提出了构建主题词库的基本方法并在此基础之上实现了基于招标信息词库字典的主题模型实现,结合Nutch开源框架和构建的词库字典主题模型完成了整个爬虫的流程分析和实现过程。(3)完成了网页解析、中文分词、基于Hadoop分布式索引器和检索器、用户接口的实现。在分布式索引器方面分析并完成了其最终目标和构建索引各阶段的实现过程;在检索器方面分析并完成了检索的基本流程和实现过程。(4)实现了搜索系统原型的开发和测试工作。对于提出的基于词库字典的主题模型进行了测试,实验证明该种模型能够达到较高的抓全率和抓准率。对于基于Hadoop的网络爬虫进行了可扩展性测试,实验证明随着节点数目的增加,网页抓取速率能够得到明显改善。
其他文献
高等学校资产资源短缺是我国现阶段高等教育发展面临的重要挑战。对于学校而言,怎么在项目之间进行有效的资源配置,使有限的资源发挥最大的作用是一个亟待解决的问题。高校资
无线地下传感器网络是以无线电波传播进行信息交换作为通信方式的传感器网络,它的大部分传感器节点位于地下土壤中,以土壤作为传播媒介。作为无线传感器网络的新领域,无线地
区域经济的交流与合作已发展成为一类较为常见的经济活动,区域之间的物流、资金流、信息流、商流等持续流动,使物流活动频率越来越高。在区域之间的相互竞争中,区域物流成为
近年来,建模仿真技术由于模拟真实世界的能力受到了越来越多的关注。随着现实系统的复杂度和规模的提高,仿真系统需要更高的计算能力。并行离散事件仿真(Parallel Discrete E
近年来为了配合经济高速发展的步伐,我国越来越重视多式联运在国内的发展,国务院印发的《物流业发展中长期规划(2014-2020年)》中多次提到有关多式联运的相关内容;自2013年起,习近平总书记也提出了“一带一路”倡议,更进一步提升了多式联运在国内物流行业发展中的地位;与此同时,国家还在《关于进一步鼓励开展多式联运工作的通知》等文件中提出全新要求:2020年多式联运货运量必须超过30亿吨,运量规模占
随着互联网的飞速发展,网络上蕴含的多语言信息也呈指数级增长。单语种所获得的检索结果有时难以满足用户信息检索的需求。查询翻译作为跨语信息检索的基础技术,具有重要的研
两轮轮式机器人是通过两个主动轮驱动机器人运动和工作的。它具有一系列的优秀特性:自重轻、承载大、行走速度快、工作效率高等。因为有这些突出的优点,两轮轮式机器人被广泛
在机器学习中,给高维数据集建立一个鲁棒训练模型是非常重要的。其中最大的问题是如何进行数据降维。数据降维分为两种形式:特征选择和特征提取。特征选择是在原有的特征集中
当前,网络已经十分普及。网络在给人们的生活带来便利的同时,也使得许多人上网成瘾,严重影响身心健康和正常生活。网瘾已经成为一个严重的社会问题,其重要特征是上网时长,所
随着社会经济结构调整和现代制造业发展,制造业的需求和特点由早期的注重产量朝着多品种小批量、流程工艺更复杂多变、更快速响应市场以及更高标准的质量监控和回溯机制等方