论文部分内容阅读
摘要:文章设计了一个信息仓库的检索系统,对企业各种信息进行有效分类和统一规划,并提供全文检索、类别浏览、组合条件查询等多种搜索机制,使得信息可以方便地组织起来并按照使用权限展现给用户,最大限度地提高信息利用率。经过实际使用,该检索系统基本达到设计的要求。
关键词:信息仓库;信息检索
一、引言
当代社会是一个信息高度发达的社会,信息是否被合理利用往往会决定一个企业的发展成败。如果不对信息管理加以足够的重视,会导致企业在市场竞争中处于不利的位置。要想赢得市场竞争的主动,就要求各个企业必须加强对企业相关的各种信息的管理和使用,就是企业要实现“信息化”。
企业信息化是企业应用信息技术,使企业的生产、经营、管理等各个层次、各个环节和各个方面水平得以提高,不断提高企业的决策能力和竞争力的过程。
在企业实际运作过程中,会产生大量的非结构化的文档信息。企业需要对这些信息进行处理。因为,如果不加以处理,一方面会浪费有用的信息资源;另一方面,也会对企业的信息处理造成负担,影响工作效率。这就需要建设一个信息仓库系统。
二、信息仓库系统介绍
计算机与信息技术经历了半个世纪的发展,给人类社会带来了巨大的变化与影响。现在,人们正逐渐受到“信息爆炸”、“混沌信息空间”和“数据过剩”的巨大压力。计算机与信息技术的发展,虽然加速了获取知识的过程,但当数据量极度增长时,如果没有有效的方法,也会感到像大海捞针一样束手无策。据估计,在一个大型企业数据库中,只有7%的数据得到了很好的利用,相对于“数据过剩”和“信息爆炸”,人们又感到“信息贫乏”。
早期人们用来支持决策的信息系统大多数是以关系数据库为基础的。关系数据库以关系模型为基础,关系模型由关系数据结构、关系操作集合和关系完整性约束3部分组成。由于不能访问或以快速方式访问大型数据存储器或有高度标准结构的数据;而且传统的数据库数据缺乏组织性;同时数据库中存放的大多是原始数据,难以转化为有用的信息,效率低下,对分析处理的支持不能令人满意。以往的多数决策支持系统只能停留在演示阶段,灵活性和可用性差,不实用。
因此,人们开始尝试对数据库中的原始数据进行再加工,形成一个综合的、面向分析的环境以支持决策的产生,从而产生了数据仓库。
数据仓库(Data Warehouse)是指从多个数据源收集的信息,以一个一致的模式存储起来所得到的数据集合。它是面向主题的、集成的、稳定的数据集合,支持管理部门的决策过程。
但是,数据仓库本身固有的特点:应用建立在数据的基础上的,会带来忽略经过挖掘的数据的管理和利用不足的问题。于是,信息仓库应运而生。
信息仓库的产生,顺应时代的发展和科技的进步,是科学技术要满足人们需要的必然结果。
信息仓库系统是企业信息管理体系建设的一部分。此系统侧重点是非结构化信息的采集、管理和展现。它是一种能够为企业中高层管理决策者提供辅助决策的信息管理系统。
利用该系统,企业用户把这些文档信息分门别类组织存放起来,根据信息的实际用途和决策支持的具体需要,对企业各种信息进行有效分类和统一规划,并提供全文检索、类别浏览、组合条件查询等多种搜索机制,使得信息可以方便地组织起来并按照使用权限展现给用户,以实现信息的分级共享,最大限度地提高信息利用率。信息仓库的文件资料与其之上的查询应用相结合,以构成较为完善的知识发现与管理体系。
三、信息仓库中检索功能概述
信息仓库系统建立后,可以想象每天都有大量的各类信息加载到系统中,如何快速、准确的查询到最关心的信息,就成为系统重点解决的问题。系统提供多种检索方式,如全文检索、分类浏览、高级检索、热门检索,可以帮助用户很方便地查找到符合各自需要的信息。搜索引擎子系统的主要目的是在信息仓库系统中提供对信息的多种查询功能(见图1)。
(一)全文检索
用户输入任意词语,系统都可以搜索出包含这些词语的文档信息。在信息仓库系统中,提供按标题检索和按内容检索两种方式。
按标题检索:检索出文档标题中包含所输入词语的所有文档信息。
按内容检索:检索出文档内容中包含所输入词语的所有文档信息。
全文检索的主要目的是让用户查找想要的任何信息。对所要查询的信息,用户只知有代表性的词语、基本概念等。
系统提供一个检索引擎,用户只要输入有代表性的词语、基本概念(顺序信息),在信息库中全文搜索包含该词或词组(顺序信息)的相关信息。
可操作的对象:Word文档、Excel文档、PDF文档、HTML文档、Tiff文档等文档型文件。针对音/视频文件、流媒体文件、图形、图片文件等非文档文件,提供针对文件属性(作者、编档时间、关键字、描述、摘要等)的检索。
检索条件:用户通过输入检索条件,完成对授权文档、文件的访问。检索条件可以是多种类型的数据,如字、词、词组、语句、时间、文件名等。系统还允许用户输入基于运算表达式的复合型条件,如时间+文件名、字+字、词组+语句等。
(二)分类检索
将信息按照系统定义好的类别展示给用户,可以采用树型结构或者层级结构等展现形式,方便用户查看,同时可以只在某一类别下再进行全文检索,缩小搜索范围,提高搜索的速度和准确度。
当用户明确知道要查的某一分类的信息时,通过信息分类逐级目录导航的方式细化信息分类以查找到用户想查找的信息是一种更为高效的查找方式。分类检索的界面与实现方式可以参考各大搜索引擎的目录检索方式。
(三)高级检索
系统提供若干更为具体的检索条件,如采集人姓名、所在部门、采集时间等,让用户更准确的定位信息,提高信息查询的工作效率。
高级检索的主要目的是查询格式固定但条件多样的信息。为节省查询定义的时间和数据库检索的时间、提高查询效率、提高查询信息的准确性,可将信息的多种查询条件按类分成几个条件集合,集合之间的关系分成两种:同时满足(并)、只要一个满足(与)。在查询信息时,用户只需在条件集合中选择相应的条件以及集合之间的关系(只要一个满足、同时满足)即可查询出相关的信息。
在系统中可供检索的条件主要有:文档标题;采集人姓名、所在部门、采集时间;发布人姓名、所在部门、发布时间;审核人姓名、所在部门、审核时间。
(四)热门检索
对系统用户输入的全文查询条件保存下来,通过系统比较,找到10条最经常使用的查询用语,作为热门检索的常用查询条件,当以后再次查询此类内容时,即可直接点击进入,而无需重新输入查询条件了,方便用户使用。
四、总结
本文的总体目标是为了解决在信息仓库中,面对大量的非结构化的信息,如何最快、最好、最准确地找到用户权限以内的信息,为用户节省时间,提高企业的工作效率!
本文设计的系统,能完成的搜索功能有:全文搜索、高级搜索、分类搜索、热门搜索。通过本系统,企业信息管理可以做到:一方面虽然信息过多,但能够做到便于使用者找到最需要的文件。另一方面,帮助每个部门分类和屏蔽对于一些部门无用的信息,提高了工作效率。
参考文献:
1、宜达婧.基元信息仓库的研究及其在流程工业中的应用[D].北京化工大学,2005.
2、曹重英,陈洛资,肖锋,单莹.应用数据仓库技术实现决策支持系统[J].计算机系统应用,2000(10).
3、李志杰.基于信息仓库的企业信息资源整合与集成[J].信息技术,2005(5).
(作者单位:钮焱,湖北工业大学计算机学院,作者为副教授、副院长;赵庆龙,内蒙古蒙牛阿拉乳制品有限责任公司)
关键词:信息仓库;信息检索
一、引言
当代社会是一个信息高度发达的社会,信息是否被合理利用往往会决定一个企业的发展成败。如果不对信息管理加以足够的重视,会导致企业在市场竞争中处于不利的位置。要想赢得市场竞争的主动,就要求各个企业必须加强对企业相关的各种信息的管理和使用,就是企业要实现“信息化”。
企业信息化是企业应用信息技术,使企业的生产、经营、管理等各个层次、各个环节和各个方面水平得以提高,不断提高企业的决策能力和竞争力的过程。
在企业实际运作过程中,会产生大量的非结构化的文档信息。企业需要对这些信息进行处理。因为,如果不加以处理,一方面会浪费有用的信息资源;另一方面,也会对企业的信息处理造成负担,影响工作效率。这就需要建设一个信息仓库系统。
二、信息仓库系统介绍
计算机与信息技术经历了半个世纪的发展,给人类社会带来了巨大的变化与影响。现在,人们正逐渐受到“信息爆炸”、“混沌信息空间”和“数据过剩”的巨大压力。计算机与信息技术的发展,虽然加速了获取知识的过程,但当数据量极度增长时,如果没有有效的方法,也会感到像大海捞针一样束手无策。据估计,在一个大型企业数据库中,只有7%的数据得到了很好的利用,相对于“数据过剩”和“信息爆炸”,人们又感到“信息贫乏”。
早期人们用来支持决策的信息系统大多数是以关系数据库为基础的。关系数据库以关系模型为基础,关系模型由关系数据结构、关系操作集合和关系完整性约束3部分组成。由于不能访问或以快速方式访问大型数据存储器或有高度标准结构的数据;而且传统的数据库数据缺乏组织性;同时数据库中存放的大多是原始数据,难以转化为有用的信息,效率低下,对分析处理的支持不能令人满意。以往的多数决策支持系统只能停留在演示阶段,灵活性和可用性差,不实用。
因此,人们开始尝试对数据库中的原始数据进行再加工,形成一个综合的、面向分析的环境以支持决策的产生,从而产生了数据仓库。
数据仓库(Data Warehouse)是指从多个数据源收集的信息,以一个一致的模式存储起来所得到的数据集合。它是面向主题的、集成的、稳定的数据集合,支持管理部门的决策过程。
但是,数据仓库本身固有的特点:应用建立在数据的基础上的,会带来忽略经过挖掘的数据的管理和利用不足的问题。于是,信息仓库应运而生。
信息仓库的产生,顺应时代的发展和科技的进步,是科学技术要满足人们需要的必然结果。
信息仓库系统是企业信息管理体系建设的一部分。此系统侧重点是非结构化信息的采集、管理和展现。它是一种能够为企业中高层管理决策者提供辅助决策的信息管理系统。
利用该系统,企业用户把这些文档信息分门别类组织存放起来,根据信息的实际用途和决策支持的具体需要,对企业各种信息进行有效分类和统一规划,并提供全文检索、类别浏览、组合条件查询等多种搜索机制,使得信息可以方便地组织起来并按照使用权限展现给用户,以实现信息的分级共享,最大限度地提高信息利用率。信息仓库的文件资料与其之上的查询应用相结合,以构成较为完善的知识发现与管理体系。
三、信息仓库中检索功能概述
信息仓库系统建立后,可以想象每天都有大量的各类信息加载到系统中,如何快速、准确的查询到最关心的信息,就成为系统重点解决的问题。系统提供多种检索方式,如全文检索、分类浏览、高级检索、热门检索,可以帮助用户很方便地查找到符合各自需要的信息。搜索引擎子系统的主要目的是在信息仓库系统中提供对信息的多种查询功能(见图1)。
(一)全文检索
用户输入任意词语,系统都可以搜索出包含这些词语的文档信息。在信息仓库系统中,提供按标题检索和按内容检索两种方式。
按标题检索:检索出文档标题中包含所输入词语的所有文档信息。
按内容检索:检索出文档内容中包含所输入词语的所有文档信息。
全文检索的主要目的是让用户查找想要的任何信息。对所要查询的信息,用户只知有代表性的词语、基本概念等。
系统提供一个检索引擎,用户只要输入有代表性的词语、基本概念(顺序信息),在信息库中全文搜索包含该词或词组(顺序信息)的相关信息。
可操作的对象:Word文档、Excel文档、PDF文档、HTML文档、Tiff文档等文档型文件。针对音/视频文件、流媒体文件、图形、图片文件等非文档文件,提供针对文件属性(作者、编档时间、关键字、描述、摘要等)的检索。
检索条件:用户通过输入检索条件,完成对授权文档、文件的访问。检索条件可以是多种类型的数据,如字、词、词组、语句、时间、文件名等。系统还允许用户输入基于运算表达式的复合型条件,如时间+文件名、字+字、词组+语句等。
(二)分类检索
将信息按照系统定义好的类别展示给用户,可以采用树型结构或者层级结构等展现形式,方便用户查看,同时可以只在某一类别下再进行全文检索,缩小搜索范围,提高搜索的速度和准确度。
当用户明确知道要查的某一分类的信息时,通过信息分类逐级目录导航的方式细化信息分类以查找到用户想查找的信息是一种更为高效的查找方式。分类检索的界面与实现方式可以参考各大搜索引擎的目录检索方式。
(三)高级检索
系统提供若干更为具体的检索条件,如采集人姓名、所在部门、采集时间等,让用户更准确的定位信息,提高信息查询的工作效率。
高级检索的主要目的是查询格式固定但条件多样的信息。为节省查询定义的时间和数据库检索的时间、提高查询效率、提高查询信息的准确性,可将信息的多种查询条件按类分成几个条件集合,集合之间的关系分成两种:同时满足(并)、只要一个满足(与)。在查询信息时,用户只需在条件集合中选择相应的条件以及集合之间的关系(只要一个满足、同时满足)即可查询出相关的信息。
在系统中可供检索的条件主要有:文档标题;采集人姓名、所在部门、采集时间;发布人姓名、所在部门、发布时间;审核人姓名、所在部门、审核时间。
(四)热门检索
对系统用户输入的全文查询条件保存下来,通过系统比较,找到10条最经常使用的查询用语,作为热门检索的常用查询条件,当以后再次查询此类内容时,即可直接点击进入,而无需重新输入查询条件了,方便用户使用。
四、总结
本文的总体目标是为了解决在信息仓库中,面对大量的非结构化的信息,如何最快、最好、最准确地找到用户权限以内的信息,为用户节省时间,提高企业的工作效率!
本文设计的系统,能完成的搜索功能有:全文搜索、高级搜索、分类搜索、热门搜索。通过本系统,企业信息管理可以做到:一方面虽然信息过多,但能够做到便于使用者找到最需要的文件。另一方面,帮助每个部门分类和屏蔽对于一些部门无用的信息,提高了工作效率。
参考文献:
1、宜达婧.基元信息仓库的研究及其在流程工业中的应用[D].北京化工大学,2005.
2、曹重英,陈洛资,肖锋,单莹.应用数据仓库技术实现决策支持系统[J].计算机系统应用,2000(10).
3、李志杰.基于信息仓库的企业信息资源整合与集成[J].信息技术,2005(5).
(作者单位:钮焱,湖北工业大学计算机学院,作者为副教授、副院长;赵庆龙,内蒙古蒙牛阿拉乳制品有限责任公司)