【摘 要】
:
计算机信息化系统中的数据分为结构化和非结构化两类组织形式。非结构化数据是指没有预定义的组织方式或不便用二维数据结构表来表示的数据。事实上80%业务相关的信息都来源
论文部分内容阅读
计算机信息化系统中的数据分为结构化和非结构化两类组织形式。非结构化数据是指没有预定义的组织方式或不便用二维数据结构表来表示的数据。事实上80%业务相关的信息都来源于非结构化数据文本。因此,对于非结构化数据采集和检索技术的研究已经从上世纪延续至今。随着因特网和Web应用的普及,信息无处不在,非结构化数据采集和检索技术仍然是一个值得研究和实践的课题。非结构化数据处理的基础是信息提取。只有提取了非结构化数据文本的关键信息,才能对信息作进一步的分析处理,使得非结构化数据得到有效利用。本文将城市安全生产监管信息系统的一个功能模块——通知/公文管理模块作为研究对象。利用开源程序库,对不同类型的非结构化文件进行关键信息提取,完成非结构化数据的采集,改变了人工录入数据信息的传统方式。对所采集的关键内容进行全文检索,使得非结构化数据的归档和检索成为安全生产监管信息系统中的一个重要应用功能。本文主要的研究工作概述如下:1)研究和利用开源库对公文/通知对应的文档进行解析和采集,得到相关公文/通知的关键信息。2)研究和实现分词算法,完成对关键字段的切分,并利用搜索框架建立关键字的倒排索引文件。3)建立图形用户界面,方便用户使用和完成信息检索。4)研究和描述了全文检索功能的扩展应用。本文作者研究、设计和实现的技术成果已在城市安全生产监管信息系统中得到成功应用。
其他文献
外商直接投资作为全社会总投资的一部分,对东道国经济增长的影响一直是学术界研究的热点。国内外学者基于不同视角和作用机理分析了外商直接投资与地区经济增长的关系,并提出大
杜威是现代教育史上的著名教育家,是实用主义教育思想的代表人物。他的教育思想可以说是博大精深。文章力图挖掘他的教育思想中尚未完全被人们认识的一个重要领域——兴趣教
通过对Internet网在远程教育中创造了建构主义学习环境,远程教育应用技术和Inetrner网对教与学的要求几方面阐述了Internet网在远程教育中的优越性,它能在远程教学远程中提供
在1992年哥伦布发现美洲500周年之际,许多学者对哥伦布发现美洲的结论有异议,认为是北欧维京时期的海盗先于哥伦布发现美洲,经过考证,这一提法的确有一定依据。1302年,有一个
目的:实施微笑服务,提高护理水平,打造护理品牌。方法:改善输液室环境、体现人性化护理、建设品牌的护理团队、从细节入手、从点点滴滴入手,让患者感动,打造品牌服务。结果:
以癌基因 Ha-ras 为探针,对10例正常人组织和22例人胃癌组织的 DNA 用限制性内切酶 Bam HI 酶切后,再通过瑟慎印迹法(Southern Blot)杂交,发现正常组织中的 Ha-ras 常见等位
当没顶公司本身成为了事件性的作品,其具体产品的意义更多地只是延续这一事件。因此,严肃对待或是一笑了之都已无关紧要了。
随着移动计算设备和无线网络技术的飞速发展,移动计算机系统越来越多的应用于各个领域,基于移动平台的应用开发,具有越来越多的市场需求。Windows mobile是功能强大而且应用
设计附着升降脚手架时 ,应根据其技术特点和使用要求 ,从安全设计的角度提出初步框架 ,同时还应对其受力模式和设计计算系数进行分析探讨 ,以满足脚手架自身和工程应用设计中