论文部分内容阅读
21世纪毫无疑问是互联网时代,如今互联网中的信息每天都在爆炸式的增长,面对海量数据的存储和分析,传统的集中式搜索引擎显得拙荆见肘。因此人们提出了分布式搜索引擎的策略。分布式文件系统基于云计算可以合理的利用硬件资源,进行高效的并行检索。互联网每天产生的海量数据都是宝贵的财富,但是没有搜索引擎它们只是一堆杂乱的数据,需要耗费大量的人力去挖掘。传统的搜索引擎都是采用关键字匹配查询,无法揣测人们的意图,使得用户很难精准的获得自己想要的信息,因此搜索引擎的分布式智能化是未来发展的趋势。对于企业来说一个数十万员工的企业,分支机构分布在世界各地,需要在企业内部门户上提供面向全体员工的统一搜索服务,搜索的内容包括企业内应用所产生的业务数据以及企业员工相关信息。大部分企业不能充分发掘自身数据的价值,比如说现在企业数据中大多数是非结构化数据,这其中包括了Word文档,Excel表格,PDF文件,扫描图片,电子邮件,电话记录、语音留言、纸质文档、照片、网页、视频以及其他形式的内容。由于很多企业缺乏能够理解并有效利用这些内容的技术,使得非常有价值又充满战略意义的资源常常无法发挥其作用。企业数据多且杂缺少统一管理平台,业务人员缺乏技术支持,对底层数据结构不熟悉只能通过技术人员提数,效率很低。那么一款基于自然语言的智能云搜索系统对于企业的价值是不可估量的。本系统基于大数据平台通过新建移动行业专业术语词库、自学习的动态语义网解析模型,采用Lucene/Solr分词服务器,实现了使用人员可以输入自然语言检索经分数据。通过动态语义网语义解析模型,系统可自动收集、分析、丰富词条语义,持续完善“自然语言与技术语言”对应词库。利用元数据配置库和统一计算框架实现异构数据访问,融合文件、传统数据库、XML、MPP和HADOOP等结构化/非结构化的多种类型平台数据,信息查询服务由平台统一提供;利用智能任务协同,实现查询分布式处理,快速响应信息查询服务。系统还通过利用Spark Streaming流处理技术,采用内存索引方式,建立后台数据的增量索引更新机制,及时向使用者提供最新数据情况。