大型企业非结构化数据检索系统设计与实现

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:zhaoziyuan123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
非结构化数据是大型企业的宝贵数据资产,其基本特征是数据格式多样、数据存储量大、增长速度快,其全文检索是当今大型企业信息化建设的重要方向之一。本文分析了非结构化数据检索的背景和关键需求,设计并实现了大型企业非结构化数据的全文检索系统。首先将非结构化数据进行转换,然后对转换后的数据分词处理、创建索引,从用户的输入中提取主题词,作为索引数据源,最后进行全文检索,从而实现本系统。实践证明研究成果可行、有效,能够极大促进企业非结构化数据资产的高效利用,为大型企业解决非结构化数据的全文检索提供了重要的应用示范。论文主要完成的工作和创新如下:(1)通过对全文检索运行原理的深入研究,明确了如何运用相关技术来实现本系统。(2)以大型企业的特定需求为出发点,完成了需求分析说明文档,并完成了非结构数据的转换。(3)依据设计的目标和原则设计系统的总体框架,明确了整个实现过程的业务流程。(4)在深入学习Lucene及其相关技术的基础上,加以修改和扩展,使之应用于本系统中,最终设计了系统核心的索引和搜索模块,实现了非结构化数据的全文检索。(5)本文实现了逆向最大匹配算法,对企业的大量数据进行中文分词(分词准确率高达97.25%),提高了对企业内信息查询的速度和准确率。(6)本文研究了非结构化数据中的主题词及其之间的关系,实现了相关性检索,提高了检索效率。(7)对系统的页面实现了设计工作,并完成了各个实例的测试分析工作。
其他文献
图形的创造意义是为了更好地进行视觉交流和心灵沟通;是为了解决强于文字视觉冲击力的图形表现;是为了内涵丰富的图形达到视觉美、意境美和思想性的相统一。
随着教育体制的不断改革,打破传统观念教学观念,从传统教学方式中摸索出新颖的教学方式是当前教育界的一个重要目标。小学语文教学论精品课程的建设正好符合教育改革的需要,不仅
[目的]观察硫唑嘌呤(AZA)合加味愈疡汤治疗激素依赖型溃疡性结肠炎(SD-UC)的临床疗效并探讨其作用机制,以期为临床治疗该病提供理论和依据。[方法]选择符合纳入标准的患者90
通过对比传统结算方式和基于财务信息平台无现金支付结算系统的优缺点,分析支付方式转变对高校财务管理的影响,并提出有效的解决途径,从而提高财务管理效率,优化财务管理效果
<正>现代西方德育理论关注儿童生活经验的成长与道德体验,倡导学生道德发展应立足于自身社会生活实践,并要关注社会规范、伦理价值、行为方式对青少年的影响。近年来,随着我
公共经济学作为研究公共部门经济行为及其规律的课程,具有鲜明的公共属性和强烈的现实关怀,决定了其应该也能够在课程教学中融入习近平新时代中国特色社会主义思想。公共经济
为了提高组织绩效,实现组织目标,领导者需要处理好职位关系和人际关系。人际关系能够通过对现实的职位关系发生影响,使之趋向或者偏离理念的职位关系,进而影响领导者的领导力