论文部分内容阅读
非结构化数据是大型企业的宝贵数据资产,其基本特征是数据格式多样、数据存储量大、增长速度快,其全文检索是当今大型企业信息化建设的重要方向之一。本文分析了非结构化数据检索的背景和关键需求,设计并实现了大型企业非结构化数据的全文检索系统。首先将非结构化数据进行转换,然后对转换后的数据分词处理、创建索引,从用户的输入中提取主题词,作为索引数据源,最后进行全文检索,从而实现本系统。实践证明研究成果可行、有效,能够极大促进企业非结构化数据资产的高效利用,为大型企业解决非结构化数据的全文检索提供了重要的应用示范。论文主要完成的工作和创新如下:(1)通过对全文检索运行原理的深入研究,明确了如何运用相关技术来实现本系统。(2)以大型企业的特定需求为出发点,完成了需求分析说明文档,并完成了非结构数据的转换。(3)依据设计的目标和原则设计系统的总体框架,明确了整个实现过程的业务流程。(4)在深入学习Lucene及其相关技术的基础上,加以修改和扩展,使之应用于本系统中,最终设计了系统核心的索引和搜索模块,实现了非结构化数据的全文检索。(5)本文实现了逆向最大匹配算法,对企业的大量数据进行中文分词(分词准确率高达97.25%),提高了对企业内信息查询的速度和准确率。(6)本文研究了非结构化数据中的主题词及其之间的关系,实现了相关性检索,提高了检索效率。(7)对系统的页面实现了设计工作,并完成了各个实例的测试分析工作。