基于本体论及Lucene的电子公文检索系统

来源 :江西财经大学 | 被引量 : 0次 | 上传用户:WZY86512
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
电子政务是政府在国民经济和社会信息化的背景下,以提高政府办公效率,增加透明度,改善决策和投资环境,强化经济和社会的有效管理,提高法制治理水平为目标,将政府的信息发布、管理、服务、沟通功能向国际互联网上迁移的系统解决方案。 随着电子政务的推广,各个部门产生的电子公文越来越多,如何对这些电子公文进行有效的管理并能够提供有效的检索机制,以保证用户能够随时快速全面地从这些公文中找到所关心的内容,日趋显得重要。在电子政务领域,为了对产生的大量公文进行管理,各部门大都采用了文件管理系统,通过关键词匹配来进行文件检索,这种检索方式的最大缺点在于无法了解用户所输入的查询关键词的语义,所以如果能够理解用户所输入的查询关键词的语义将有效地提高检索的查全率和查准率,从而更好地满足用户的查询要求。 为了解决上述问题,本研究在传统的公文检索方式的基础之上,提供一种导航式检索,这种检索方式可以根据用户输入的查询关键词进行推理,然后给出与此查询相关的一些查询建议供用户选择,由此来提高检索的查全率和查准率,提高其平均性能。 本研究采用Stanford大学的本体开发工具Prot(?)g(?)3.2Beta对电子政务领域的电子公文进行表示,采用OWL-DL作为本体的描述语言,推理引擎采用JESS(Java Expert System Shell:Java专家系统内核),并利用JESSTab来完成Prot(?)g(?)与JESS之间的连接,对于全文检索则采用Lucene作为搜索引擎内核。由于本研究是以江西财经大学校内多个部门所发布的公文作为研究背景,所以本系统提供的全文检索是针对Word文档进行操作的,并且是对中文信息进行检索的,所以在对信息进行全文检索之前一定要先对Word文档中的内容进行抽取,本研究采用POI工具对Word文档里面的内容进行抽取,另外,因为是针对中文Word文档进行检索,所以在对Word文档中的内容抽取之后要对抽取出的中文内容进行分词操作,为后面索引的建立做好准备。本研究采用基于字符串匹配的分词方法,即按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配,完成分词操作,最后对分词后的Word文档中的内容建立索引。 通过对实验数据进行分析可知,本文所实现的导航查询的查全率和查准率虽然都介于普通查询和全文检索之间,但是所实现的导航查询的平均性能比普通查询和全文检索都要高。
其他文献
学位
数据仓库技术是近年来数据库研究、开发和应用最活跃的分支之一,也是决策支持系统的关键因素,数据仓库是一个支持管理决策过程的、面向主题的、随时间而变的数据集合,它是集
Web-GIS是当前GIS发展中的一个热点,它是利用互联网技术来扩展和完善地理信息系统的一项新技术,其核心是在地理信息系统中嵌入HTTP和TCP/IP标准的应用体系,实现互联网环境下的空
在对实际应用领域进行知识发现的过程中,由于数据采集能力有限和数据存储介质损坏等未知情况,所获取用于挖掘的数据系统往往是不完备的,即存在缺失数据。因为这种数据的不完备性
柴油机是多种水面舰艇和军辅船的主要动力装置,是舰船的心脏,一旦发生故障将会导致舰船不能正常运行甚至瘫痪。柴油机是一种复杂的机械,包含的系统部件比较多,产生故障的原因错综
随着航空产品的复杂程度和现代化程度的不断提高,其日益依赖于先进的试验与测试手段。计算机网络技术与分布式处理技术的发展,为研究先进的实时分布式机载测试系统提供了良好
随着电信市场的逐步开发,竞争日趋激烈,电信运营商的经营模式逐渐从“技术驱动”向“市场驱动”、“客户驱动”转化。这就要求运营商要采取以“客户为中心”的策略,根据客户的实
随着计算机技术和网络技术的飞速发展,计算机和网络已经渗透到社会生活的方方面面。随之而来的网络安全问题也越来越引起人们的关注和重视。入侵检测系统是一种软件与硬件的
Internet技术的迅速发展使得网络逐渐成为人们获取知识的主要途径之一。近年来,E-learning的研究和应用领域飞速发展,为用户提供了前所未有的丰富的学习资源和灵活的学习方式。
软件需求阶段引入的错误,为之付出的成本通常都比较高,因为它的影响会持续到后续的设计、开发和测试等多个阶段,所以在需求文档提交之前,需求验证是非常重要的一步工作。本文的研