论文部分内容阅读
随着信息技术的发展,搜索引擎的应用已经深入到各个领域,成为了人们获取信息的一种最常使用的有效手段。目前市场上比较流行的搜索引擎,如Google、Baidu等,都是面向公众领域的普适化搜索引擎,检索的信息也基本上以网页、博客、文档等非结构化信息为主。对于一般企业来说,信息的结构更多的是结构化数据,存放在数据仓库、ERP、 OA等信息系统中,并且随着信息化水平的不断提高,企业也积累了大量的数据,如何更好的利用这些信息为企业决策提供支持,也是企业面临的痛点。针对这一广阔的市场,我们结合搜索引擎和数据仓库两大理论特色,设计并实现了构架在数据仓库之上的搜索引擎系统,利用数据仓库的标准化数据模型,结合搜索引擎的特点.系统允许用户使用自然语言进行查询,为企业提供一种信息查询与展现的信息检索新形式,降低了IT系统的技术壁垒,从而促进信息共享和深度挖掘。本文的主要工作和研究成果包括:1.针对结构化数据存储,结合数据仓库多维模型,提出语义层的抽象封装方法,规范了数据存储结构;2.优化搜索引擎的索引结构,使之适合结构化数据查询,并实现基于正则表达式的关键字识别,提高了分词识别精确度;3.采用中文分词技术并整合IKAnalyzer开源控件实现查询解析,使得用户可以采用自然语言作为查询入口,允许用户直接输入业务短语进行查询,并且结合编译原理技术,实现自然语言分词中的表达式解析,对结构化数据进行条件筛选,自动生成查询SQL语句;4.针对结构化数据的搜索特点,对搜索结果展现模式进行优化,为用户提供更方便的搜索界面。该数据仓库搜索引擎系统已在上海烟草集团数据中心的信息服务中得到实际应用,取得了预期的应用效果。