基于Solr的企业搜索引擎的研究与实现

被引量 : 0次 | 上传用户:ersand
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的快速发展,以及企业的日益国际化,使企业间的竞争越来越激烈。如何能更及时、精确且全面的找到公司内部信息,对于一个企业来说是相当重要的。虽然Google等大型商业搜索引擎也能实现企业内部的检索功能,但由于其商业性及大众化,导致这种选择存在很大的缺陷。因此,如何有效利用现有主流搜索引擎技术,更快捷、更方便的搭建自己的企业内部搜索引擎,成为目前重要的研究课题。本课题就是针对这种需求,分析企业搜索引擎的必要性及实现方案,本文基于Solr进行企业搜索引擎的研究过程中,先对搜索引擎的概念以及系统结构进行介绍,接着深入研究全文索引技术和信息检索技术,并重点介绍本文系统所涉及到的关键技术及经典算法。同时还对Solr的有关内容进行分析与应用,如中文分词器MMSeg4j、Solr的Java客户端Solrj、以及Solr的DataImportHandler处理器等。由于Solr是一个独立的企业搜索引擎应用服务器,它对Lucene的一些代码进行封装,具有简单易用、功能强大等特点。本文就是在此基础上,结合其他关键技术如网络爬虫、信息抽取、中文分词等,设计实现一个小型企业搜索引擎系统。基于上述分析,并结合基本理论和相关技术的研究,本文最终设计实现了一个基于Solr的小型企业搜索引擎的实例。针对深度抓取工具Heritrix存在碰到即抓的缺陷,本文根据实例特征对Heritrix框架进行改进和扩展,并成功将特定网页下载到本地;研究解析工具HTMLParser的工作原理,并根据实例特点编写代码实现解析模块,同时,将信息存储到MySQL数据库中;通过对Solr的索引和检索框架进行研究及必要的配置,搭建起Solr搜索引擎服务器;研究MMSeg4j中文分词器的四种分词模式,并与Solr进行集成,并通过测试统计出其分词准确度达到98%;针对企业数据几乎存储在数据库这种现状,本文应用Solr的DataImportHandler处理器,将数据库数据导入Solr中,实现了针对企业这个目的;研究并改进Solrj源码实现了搜索功能,并设计了良好的用户界面,进而实现一个完整的企业搜索引擎。最后,在功能上和性能上对本系统进行测试,得出该系统具有查询准确率高、实时性好的特点,且具有较好的实际应用价值。
其他文献
20世纪90年代以来,随着中国现代化、工业化、城市化建设的加快,各个城市开始了城市营销的探索,与此同时出现了令人目不暇接的“城市形象片秀”。本文驾驭着一根缰绳上的马车,这辆
本文通过从创作背景、曲式结构、演奏技法等方面来分析《b小调第一谐谑曲》,得出肖邦独创性地把"谐谑曲"体裁发展成独立的大型钢琴音乐体裁,并赋予其丰富而深刻的思想情感内
中国的保险行业近年来取得了突飞猛进的发展,主要表现为保险资源得到了不断开发利用、保险市场得到了进一步的开拓和规范及保险产品的结构得到了很大的改善。同时随着保险行业
互动设计的快速发展,如今已运用到各艺术设计学科当中,也促使艺术设计各门类与其他多学科的交叉融合、跨界合作,打破了传统与原有的思维定势,丰富、优化了艺术设计的内涵与意义。
云门寺与王氏书法传承渊源极深,晋时为王献之故宅,陈隋间王羲之七世孙智永居云门寺,藏《兰亭序》真本并授法于虞世南,唐贞观中,唐太宗于云门寺赚得《兰亭序》并大加推崇,从此
2005年,门头沟等5个区县被划定为北京生态涵养发展区,作为首都的西部屏障,实施生态修复具有十分重要的意义,妙峰山镇充分发挥“生态修复试验区”的先导作用,生态修复效果明显
新时期以来,由于中外文化的强烈碰撞与交汇,西方现代派文学思潮蜂拥而入,以及一些文坛回忆录的发表,茅盾从政治、人品直到文学创作遭到全面冲击,并在学界引起了论争。这些论
就变动成本法的优点 ,变动成本法与公认会计原则的矛盾 ,西方的解决办法 ,中国的特殊性及如何解决我国应用事务中存在的特殊问题做一些尝试性的阐述 ,目的是吸收变动成本法的
中国足球未来发展在于青少年体系建设。其主要包括校园足球建设和俱乐部青训体系建设两方面。中国青少年99.9%都在校园里,所以,笔者认为抓青少年的足球,应把主要精力放在抓校
人工湿地是20世纪70年代发展起来的,最初是作为传统污水处理技术的一种有效替代方案,具有处理效果好、运行费用低、能耗少等优点,在我国水污染治理和水体修复等方面发挥了较大的