论文部分内容阅读
物流信息资源包罗万象,如何快速从繁杂的海量数据中获取用户所需信息显得尤为重要。搜索引擎作为信息获取的入口,其性能的好坏直接决定着物流信息服务的质量。目前,传统的全网式搜索引擎存在搜索范围广难以聚焦,检索结果不精准等问题;集中式搜索引擎则存在系统不稳定,检索效率低等瓶颈。设计更为高效精准的搜索引擎是为用户提供定制化物流信息服务的关键。本文设计新的搜索引擎提高用户信息服务体验,主要完成了以下研究内容:(1)设计基于云计算的定制化物流信息搜索平台,提高信息检索效率。搭建平台总体框架,包括体系架构、功能结构、业务流程等部分,确定了平台的总体功能及运行机制,将云计算技术应用于垂直搜索引擎,利用虚拟资源池对软硬件资源统一调配管理,减少资源浪费;设计Hadoop分布式集群方案,在信息采集、索引与检索过程中完成文件的分布式存储与信息的并行处理,加快数据存储与处理速度,提高运行效率。(2)研究改进相关算法及搜索引擎关键技术,提高信息搜索精准度。在信息采集过程中,选择宽度优先策略爬取网页信息并设计合适的队列管理爬取到的URL链接;用改进的多层布隆过滤器实现URL链接去重;设计基于词典的正向最大匹配策略与逆向最大匹配策略相结合并加入统计学知识的分词算法提高分词准确度;提出基于内容相关度的VSM算法与基于链接权威相关度的PageRank算法相融合的V-PR主题相关性判断算法,提高了信息的垂直抓取精准度;信息索引检索过程中,设计“中心聚合,节点搜索,缓存辅助”检索架构并结合Lucene技术实现精准信息的索引与检索。(3)基于以上研究成果结合物流实例验证,进一步提出平台优化建议。基于MySql数据库与MyEclipse开发环境对平台集成与测试,对改进的算法进行了实验评估,分析其合理性,并提出了平台优化建议。实验验证定制化物流信息搜索云平台具有良好的性能,可以为用户提供更高效的信息服务,具有一定的理论与实践借鉴意义。