论文部分内容阅读
电子政务是政府在国民经济和社会信息化的背景下,以提高政府办公效率,增加透明度,改善决策和投资环境,强化经济和社会的有效管理,提高法制治理水平为目标,将政府的信息发布、管理、服务、沟通功能向国际互联网上迁移的系统解决方案。 随着电子政务的推广,各个部门产生的电子公文越来越多,如何对这些电子公文进行有效的管理并能够提供有效的检索机制,以保证用户能够随时快速全面地从这些公文中找到所关心的内容,日趋显得重要。在电子政务领域,为了对产生的大量公文进行管理,各部门大都采用了文件管理系统,通过关键词匹配来进行文件检索,这种检索方式的最大缺点在于无法了解用户所输入的查询关键词的语义,所以如果能够理解用户所输入的查询关键词的语义将有效地提高检索的查全率和查准率,从而更好地满足用户的查询要求。 为了解决上述问题,本研究在传统的公文检索方式的基础之上,提供一种导航式检索,这种检索方式可以根据用户输入的查询关键词进行推理,然后给出与此查询相关的一些查询建议供用户选择,由此来提高检索的查全率和查准率,提高其平均性能。 本研究采用Stanford大学的本体开发工具Prot(?)g(?)3.2Beta对电子政务领域的电子公文进行表示,采用OWL-DL作为本体的描述语言,推理引擎采用JESS(Java Expert System Shell:Java专家系统内核),并利用JESSTab来完成Prot(?)g(?)与JESS之间的连接,对于全文检索则采用Lucene作为搜索引擎内核。由于本研究是以江西财经大学校内多个部门所发布的公文作为研究背景,所以本系统提供的全文检索是针对Word文档进行操作的,并且是对中文信息进行检索的,所以在对信息进行全文检索之前一定要先对Word文档中的内容进行抽取,本研究采用POI工具对Word文档里面的内容进行抽取,另外,因为是针对中文Word文档进行检索,所以在对Word文档中的内容抽取之后要对抽取出的中文内容进行分词操作,为后面索引的建立做好准备。本研究采用基于字符串匹配的分词方法,即按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配,完成分词操作,最后对分词后的Word文档中的内容建立索引。 通过对实验数据进行分析可知,本文所实现的导航查询的查全率和查准率虽然都介于普通查询和全文检索之间,但是所实现的导航查询的平均性能比普通查询和全文检索都要高。